拒絕推斷(Reject Inference)是一種在金融場景經常和評分卡模型一起使用的數據增強方法,可以用來解決樣本偏差問題。本文為您介紹拒絕推斷組件的配置方法。
算法簡介
以信貸場景為例,用評分卡模型對用戶的償還、違約情況進行建模時只用到了被放貸的用戶數據,而缺少未得到貸款的用戶數據,導致模型對全量數據的風險估計不準確,往往過于樂觀。拒絕推斷可以解決此類樣本偏差問題。
算法原理
拒絕推斷方法需要根據輸入的包含真實標簽和預測結果的訓練數據(又稱為授信數據),給缺少真實標簽但包含預測結果的數據加上合適的標簽,沒有真實標簽的數據又稱為拒絕數據。該算法提供以下四種拒絕推斷方法。
模糊法
模糊法(fuzzy)通過給拒絕樣本加上正例和負例兩種標簽的方法增強數據集,每種標簽對應的樣本權重計算公式如下:
是前置評分卡組件預測的正例概率值,您可以指定和參數:
:給出全部數據的拒絕率。
:拒絕樣本的負例概率,相比接受樣本的負例概率增加到倍。
硬截斷法
硬截斷法(hard cutoff)需要您基于前置評分卡模型的打分,根據對拒絕用戶的風險容忍度來設定一個閾值分數。對低于這個閾值的添加負樣本標簽;對高于這個閾值的添加正樣本標簽。
分配法
分配法 (parcelling)對接受樣本基于前置評分卡模型的預測結果進行分組,計算各分組的違約率。然后對拒絕樣本進行同樣的分組,以該組違約率為抽樣比例,隨機抽取該分組下的違約樣本,指定其為負樣本,剩下的則是正樣本。
兩階段法
兩階段法 (Two-Stage)除了需要前置評分卡模型的預測分值(AcceptRejectScore),還需要一個前置模型預測樣本被接受或拒絕的概率(GoodBadScore),兩階段法通過擬合AcceptRejectScore和GoodBadScore的線性關系,修正前置評分卡模型對無標簽樣本的預測結果,然后按照分配法的步驟為樣本添加標簽。
算法使用
該算法要求真實標簽的類別必須為0和1,其中1代表正樣本或好樣本。
該算法輸入樁個數為2,分別輸入接受樣本和拒絕樣本。
可視化配置參數
輸入樁配置
輸入樁(從左到右) | 限制數據類型 | 建議上游組件 | 是否必選 |
接受樣本 | 無 | 是 | |
拒絕樣本 | 無 | 是 |
組件參數
頁簽 | 參數 | 是否必選 | 描述 | 默認值 |
字段設置 | 履約/違約預測結果列 | 是 | 評分卡組件的預測結果列。一般是在授信數據集上以樣本的好壞情況作為標簽,用同一個評分卡模型訓練、預測后prediction_score列的輸出結果。 | 無 |
授信數據的真實標簽列 | 是 | 授信數據的真實標簽列的列名。 | 無 | |
樣本權重列 | 否 | 樣本權重列的列名。 | 無 | |
授信/拒絕預測結果列 | 否 | 預測的樣本接受概率,一般是在全量數據上以接受或拒絕作為標簽,用同一個評分卡或線形模型訓練、預測后的輸出結果。 說明 拒絕推斷方法選擇Two-Stage方法時,需要配置該字段。 | 無 | |
參數設置 | 拒絕推斷方法 | 否 | 拒絕推斷使用的方法,取值如下,具體含義請參見算法原理介紹。
| fuzzy模糊法 |
拒絕樣本的比例 | 是 | 拒絕率,代表在真實環境里一個樣本被拒絕的概率。 | 0.3 | |
分桶數量 | 否 | 僅拒絕推斷方法選擇parceling分配法和two stage兩階段法時,支持配置該參數。 訓練分箱模型步驟的分箱個數。 | 25 | |
截斷分值 | 否 | 僅拒絕推斷方法選擇hard-cutoff硬截斷法時,支持配置該參數。 截斷閾值。使用截斷法時,大于等于截斷分值的樣本被預測為正樣本,其余為負樣本。 | 無 | |
壞樣本比例增長系數 | 否 | 僅拒絕推斷方法選擇fuzzy模糊法、parceling分配法或two stage兩階段法時支持配置該參數。
| 1.0 | |
隨機數種子 | 否 | 僅拒絕推斷方法選擇parceling分配法時支持配置該參數。 隨機指定標簽時使用的隨機數種子。 | 0 | |
區間選擇方法 | 否 | 僅拒絕推斷方法選擇parceling分配法和two stage兩階段法時支持配置該參數。 有以下三種分箱區間選擇方法
| 全量數據集 | |
分數轉換 | 否 | 選中分數轉換,支持配置scaledValue、odds和pdo,關于參數配置方法,詳情請參見評分卡訓練。 | false | |
scaledValue | 否 | 無 | ||
odds | 否 | 無 | ||
pdo | 否 | 無 | ||
執行調優 | 底層作業使用的計算資源 | 是 | 執行作業的資源類型。 | MaxCompute |
節點個數 | 否 | 執行作業的節點數,正整數,取值范圍為[1,9999]。 | 無 | |
單個節點內存大小 | 否 | 節點所使用的內存數,單位為MB,取值范圍為[1024,64*1024]。 | 無 |
輸出樁配置
輸出樁 | 存儲位置 | 下游建議組件 | 數據類型 |
輸出 | 不需要配置 | MaxCompute表 |