亚洲男人天堂无码2021,免费久久99热只有频精品,无码av在线永久

拒絕推斷（Reject Inference）是一種在金融場景經常和評分卡模型一起使用的數據增強方法，可以用來解決樣本偏差問題。本文為您介紹拒絕推斷組件的配置方法。

算法簡介

以信貸場景為例，用評分卡模型對用戶的償還、違約情況進行建模時只用到了被放貸的用戶數據，而缺少未得到貸款的用戶數據，導致模型對全量數據的風險估計不準確，往往過于樂觀。拒絕推斷可以解決此類樣本偏差問題。

算法原理

拒絕推斷方法需要根據輸入的包含真實標簽和預測結果的訓練數據（又稱為授信數據），給缺少真實標簽但包含預測結果的數據加上合適的標簽，沒有真實標簽的數據又稱為拒絕數據。該算法提供以下四種拒絕推斷方法。

模糊法
模糊法（fuzzy）通過給拒絕樣本加上正例和負例兩種標簽的方法增強數據集，每種標簽對應的樣本權重計算公式如下：
是前置評分卡組件預測的正例概率值，您可以指定和參數：
- ：給出全部數據的拒絕率。
- ：拒絕樣本的負例概率，相比接受樣本的負例概率增加到倍。
硬截斷法
硬截斷法（hard cutoff）需要您基于前置評分卡模型的打分，根據對拒絕用戶的風險容忍度來設定一個閾值分數。對低于這個閾值的添加負樣本標簽；對高于這個閾值的添加正樣本標簽。
分配法
分配法（parcelling）對接受樣本基于前置評分卡模型的預測結果進行分組，計算各分組的違約率。然后對拒絕樣本進行同樣的分組，以該組違約率為抽樣比例，隨機抽取該分組下的違約樣本，指定其為負樣本，剩下的則是正樣本。
兩階段法
兩階段法（Two-Stage）除了需要前置評分卡模型的預測分值（AcceptRejectScore），還需要一個前置模型預測樣本被接受或拒絕的概率（GoodBadScore），兩階段法通過擬合AcceptRejectScore和GoodBadScore的線性關系，修正前置評分卡模型對無標簽樣本的預測結果，然后按照分配法的步驟為樣本添加標簽。

算法使用

該算法要求真實標簽的類別必須為0和1，其中1代表正樣本或好樣本。

該算法輸入樁個數為2，分別輸入接受樣本和拒絕樣本。

可視化配置參數

輸入樁配置

輸入樁（從左到右）	限制數據類型	建議上游組件	是否必選
接受樣本	無	讀數據表、評分卡預測	是
拒絕樣本	無	讀數據表、評分卡預測	是

組件參數

頁簽	參數	是否必選	描述	默認值
字段設置	履約/違約預測結果列	是	評分卡組件的預測結果列。一般是在授信數據集上以樣本的好壞情況作為標簽，用同一個評分卡模型訓練、預測后prediction_score列的輸出結果。	無
	授信數據的真實標簽列	是	授信數據的真實標簽列的列名。	無
	樣本權重列	否	樣本權重列的列名。	無
	授信/拒絕預測結果列	否	預測的樣本接受概率，一般是在全量數據上以接受或拒絕作為標簽，用同一個評分卡或線形模型訓練、預測后的輸出結果。說明拒絕推斷方法選擇Two-Stage方法時，需要配置該字段。	無
參數設置	拒絕推斷方法	否	拒絕推斷使用的方法，取值如下，具體含義請參見算法原理介紹。 fuzzy模糊法 hard-cutoff硬截斷法 parceling分配法 two stage兩階段法	fuzzy模糊法
	拒絕樣本的比例	是	拒絕率，代表在真實環境里一個樣本被拒絕的概率。	0.3
	分桶數量	否	僅拒絕推斷方法選擇parceling分配法和two stage兩階段法時，支持配置該參數。訓練分箱模型步驟的分箱個數。	25
	截斷分值	否	僅拒絕推斷方法選擇hard-cutoff硬截斷法時，支持配置該參數。截斷閾值。使用截斷法時，大于等于截斷分值的樣本被預測為正樣本，其余為負樣本。	無
	壞樣本比例增長系數	否	僅拒絕推斷方法選擇fuzzy模糊法、parceling分配法或two stage兩階段法時支持配置該參數。使用parceling分配法或two stage兩階段法時：一般認為，雖然在同一個分箱中，授信樣本的質量也可能好于拒絕樣本。例如： EVENT_RATE_INCREASE設為1.5，某個分箱里授信樣本中30%是壞樣本，那么我們認為在拒絕樣本里壞樣本可能占 `30%×1.5=45%`，然后隨機給拒絕樣本45%的數據加上bad標簽。使用fuzzy模糊法時：該參數影響計算出的樣本權重，詳情請參見上述算法原理部分參數。	1.0
	隨機數種子	否	僅拒絕推斷方法選擇parceling分配法時支持配置該參數。隨機指定標簽時使用的隨機數種子。	0
	區間選擇方法	否	僅拒絕推斷方法選擇parceling分配法和two stage兩階段法時支持配置該參數。有以下三種分箱區間選擇方法授信數據集：accepts。拒絕數據集：rejects。全量數據集：augmentation。	全量數據集
	分數轉換	否	選中分數轉換，支持配置scaledValue、odds和pdo，關于參數配置方法，詳情請參見評分卡訓練。	false
	scaledValue	否		無
	odds	否		無
	pdo	否		無
執行調優	底層作業使用的計算資源	是	執行作業的資源類型。	MaxCompute
	節點個數	否	執行作業的節點數，正整數，取值范圍為[1,9999]。	無
	單個節點內存大小	否	節點所使用的內存數，單位為MB，取值范圍為[1024,64*1024]。	無

輸出樁配置

輸出樁	存儲位置	下游建議組件	數據類型
輸出	不需要配置	評分卡訓練、分箱	MaxCompute表

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区