日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

拒絕推斷

拒絕推斷(Reject Inference)是一種在金融場景經常和評分卡模型一起使用的數據增強方法,可以用來解決樣本偏差問題。本文為您介紹拒絕推斷組件的配置方法。

算法簡介

以信貸場景為例,用評分卡模型對用戶的償還、違約情況進行建模時只用到了被放貸的用戶數據,而缺少未得到貸款的用戶數據,導致模型對全量數據的風險估計不準確,往往過于樂觀。拒絕推斷可以解決此類樣本偏差問題。

算法原理

拒絕推斷方法需要根據輸入的包含真實標簽和預測結果的訓練數據(又稱為授信數據),給缺少真實標簽但包含預測結果的數據加上合適的標簽,沒有真實標簽的數據又稱為拒絕數據。該算法提供以下四種拒絕推斷方法。

  • 模糊法

    模糊法(fuzzy)通過給拒絕樣本加上正例和負例兩種標簽的方法增強數據集,每種標簽對應的樣本權重計算公式如下:image.svgimage.svgimage.svg

    image.svg是前置評分卡組件預測的正例概率值,您可以指定image.svgimage.svg參數:

    • image.svg:給出全部數據的拒絕率。

    • image.svg:拒絕樣本的負例概率,相比接受樣本的負例概率增加到image.svg倍。

  • 硬截斷法

    硬截斷法(hard cutoff)需要您基于前置評分卡模型的打分,根據對拒絕用戶的風險容忍度來設定一個閾值分數。對低于這個閾值的添加負樣本標簽;對高于這個閾值的添加正樣本標簽。

  • 分配法

    分配法 (parcelling)對接受樣本基于前置評分卡模型的預測結果進行分組,計算各分組的違約率。然后對拒絕樣本進行同樣的分組,以該組違約率為抽樣比例,隨機抽取該分組下的違約樣本,指定其為負樣本,剩下的則是正樣本。

  • 兩階段法

    兩階段法 (Two-Stage)除了需要前置評分卡模型的預測分值(AcceptRejectScore),還需要一個前置模型預測樣本被接受或拒絕的概率(GoodBadScore),兩階段法通過擬合AcceptRejectScore和GoodBadScore的線性關系,修正前置評分卡模型對無標簽樣本的預測結果,然后按照分配法的步驟為樣本添加標簽。

算法使用

該算法要求真實標簽的類別必須為0和1,其中1代表正樣本或好樣本。

該算法輸入樁個數為2,分別輸入接受樣本和拒絕樣本。

可視化配置參數

輸入樁配置

輸入樁(從左到右)

限制數據類型

建議上游組件

是否必選

接受樣本

讀數據表評分卡預測

拒絕樣本

讀數據表評分卡預測

組件參數

頁簽

參數

是否必選

描述

默認值

字段設置

履約/違約預測結果列

評分卡組件的預測結果列。一般是在授信數據集上以樣本的好壞情況作為標簽,用同一個評分卡模型訓練、預測后prediction_score列的輸出結果。

授信數據的真實標簽列

授信數據的真實標簽列的列名。

樣本權重列

樣本權重列的列名。

授信/拒絕預測結果列

預測的樣本接受概率,一般是在全量數據上以接受或拒絕作為標簽,用同一個評分卡或線形模型訓練、預測后的輸出結果。

說明

拒絕推斷方法選擇Two-Stage方法時,需要配置該字段。

參數設置

拒絕推斷方法

拒絕推斷使用的方法,取值如下,具體含義請參見算法原理介紹。

  • fuzzy模糊法

  • hard-cutoff硬截斷法

  • parceling分配法

  • two stage兩階段法

fuzzy模糊法

拒絕樣本的比例

拒絕率,代表在真實環境里一個樣本被拒絕的概率。

0.3

分桶數量

拒絕推斷方法選擇parceling分配法two stage兩階段法時,支持配置該參數。

訓練分箱模型步驟的分箱個數。

25

截斷分值

拒絕推斷方法選擇hard-cutoff硬截斷法時,支持配置該參數。

截斷閾值。使用截斷法時,大于等于截斷分值的樣本被預測為正樣本,其余為負樣本。

壞樣本比例增長系數

拒絕推斷方法選擇fuzzy模糊法parceling分配法two stage兩階段法時支持配置該參數。

  • 使用parceling分配法two stage兩階段法時:一般認為,雖然在同一個分箱中,授信樣本的質量也可能好于拒絕樣本。例如: EVENT_RATE_INCREASE設為1.5,某個分箱里授信樣本中30%是壞樣本,那么我們認為在拒絕樣本里壞樣本可能占 30%×1.5=45%,然后隨機給拒絕樣本45%的數據加上bad標簽。

  • 使用fuzzy模糊法時:該參數影響計算出的樣本權重,詳情請參見上述算法原理部分image..png參數。

1.0

隨機數種子

拒絕推斷方法選擇parceling分配法時支持配置該參數。

隨機指定標簽時使用的隨機數種子。

0

區間選擇方法

拒絕推斷方法選擇parceling分配法two stage兩階段法時支持配置該參數。

有以下三種分箱區間選擇方法

  • 授信數據集:accepts。

  • 拒絕數據集:rejects。

  • 全量數據集:augmentation。

全量數據集

分數轉換

選中分數轉換,支持配置scaledValueoddspdo,關于參數配置方法,詳情請參見評分卡訓練

false

scaledValue

odds

pdo

執行調優

底層作業使用的計算資源

執行作業的資源類型。

MaxCompute

節點個數

執行作業的節點數,正整數,取值范圍為[1,9999]。

單個節點內存大小

節點所使用的內存數,單位為MB,取值范圍為[1024,64*1024]。

輸出樁配置

輸出樁

存儲位置

下游建議組件

數據類型

輸出

不需要配置

評分卡訓練分箱

MaxCompute表