日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

GBDT二分類V2

梯度提升決策樹 (Gradient Boosting Decision Trees) 二分類,是經典的基于梯度提升(Gradient Boosting)的有監督學習模型,可以用來解決二分類問題。

支持計算資源

支持的計算引擎為MaxCompute。

算法簡介

梯度提升決策樹 (Gradient Boosting Decision Trees) 二分類,是經典的基于梯度提升(Gradient Boosting)的有監督學習模型,可以用來解決二分類問題。

算法原理

梯度提升決策樹模型構建了一個由多棵決策樹組成的組合模型。每一棵決策樹對應一個弱學習器,將這些弱學習器組合在一起,可以達到比較好的分類或回歸效果。

梯度提升的基本遞推結構為:

image

其中,image通常為一棵 CART 決策樹,image為決策樹的參數,image為步長。第m棵決策樹在前m-1棵決策樹的基礎上對目標函數進行優化。最終得到包含若干棵決策樹的模型。

算法使用

該算法實現中包含了XGBoost提出的二階梯度優化目標以及LightGBM的直方圖近似計算。對于一些常見的二分類問題,都可以使用這個算法解決,模型擁有較好的性能,且擁有不錯的可解釋性。

該算法支持稀疏向量格式與多列特征格式的輸入。輸入為稀疏向量格式時,僅能選擇1個String類型的列,每條數據是以單個空格為分隔符的鍵值對,鍵值之間用冒號分隔,例如:1:0.3 3:0.9。輸入為多列特征時,可以選擇多個Double、Bigint和String的列,包括了數值型特征(numerical feature)與類別型特征(categorical feature)。對于數值型特征,算法會對數據進行分箱操作;對于類別型特征,不需要提前進行OneHot預處理,算法會使用 many-vs-many 的分裂策略。

該算法要求二分類的類別必須為0和1。

當該組件與GBDT二分類預測V2組件成對執行完成后,訓練得到的模型支持部署為在線服務,詳細操作可以參考Pipeline部署在線服務

可視化配置參數

輸入樁配置

輸入樁(從左到右)

限制數據類型

建議上游組件

是否必選

輸入數據

讀數據表

組件參數

頁簽

參數

是否必選

描述

默認值

字段設置

是否為稀疏向量格式

輸入表中用于訓練的特征列是否為稀疏向量格式。在稀疏向量格式中,每條數據是以單個空格為分隔符的鍵值對,鍵值之間用冒號分隔,例如:1:0.3 3:0.9

選擇特征列

輸入表中用于訓練的特征列名數組。非稀疏向量格式時,支持類型double/bigint/string;稀疏向量格式時,支持string類型,并且只能選擇1列。

選擇類別型特征列

非稀疏向量格式,選擇作為類別型特征(categorical feature)處理的列,其他列作為數值型特征處理。

選擇標簽列

輸入表中用于訓練的標簽列名。

選擇權重列

輸入表中用于訓練的權重列名。

參數設置

樹的數目

模型中樹的棵數。

1

最大葉節點數

訓練每棵樹時,最多包含的葉節點個數。

32

學習速率

學習率。

0.05

訓練樣本比例

訓練每棵樹時,樣本的采樣比例,范圍為 (0, 1]。

0.6

訓練特征比例

訓練每棵樹時,特征的采樣比例,范圍為 (0, 1]。

0.6

葉節點最少樣本數

訓練每個樹時,各個葉子節點至少包含的樣本數量。

500

最大分箱個數

連續特征進行離散分箱時的最大分箱個數。該值越大,進行節點分裂時越精確,但計算代價越大。

32

最多類別數

類別型特征最多允許的類別個數:對于一個類別型特征,所有出現的值按頻率從高到低排序后,序位多于該值的類別將合并到一個桶中。該值越大,進行節點分裂時越精確,但也更容易過擬合,計算代價也越大。

1024

特征數量

稀疏特征時,填寫最大特征ID+1;不填寫時需要掃描一遍數據計算。

根據輸入數據自動計算

全局偏置項

初始預測為正樣本的概率值;不填寫時需要掃描一遍數據進行預估。

根據輸入數據自動計算

隨機數產生器種子

隨機種子,用于采樣。

0

執行調優

底層作業使用的計算資源

底層作業使用的計算資源:

  • MaxCompute

  • Flink

MaxCompute

節點數

執行作業的節點數。

根據輸入數據自動計算

每節點內存

節點所使用的內存數,單位為MB。

根據輸入數據自動計算

線程數

使用多線程加速計算,但成本也更高;一般情況下,隨著線程數的增加,性能會先上升后下降;請謹慎調整線程數。

1

輸出樁說明

輸出樁

存儲位置

下游建議組件

數據類型

模型輸出

不需要配置

GBDT二分類預測V2

MaxCompute表

特征重要性輸出

不需要配置

MaxCompute表

與PS-SMART二分類對比

如果您之前使用PS-SMART二分類訓練組件遇到了一些問題不容易解決,那么可以嘗試使用GBDT二分類V2組件。兩個組件當前的功能和參數支持情況,見下表:

PS-SMART二分類參數

對應本組件的參數

是否稀疏格式

是否為稀疏向量格式

選擇特征列

選擇特征列

選擇標簽列

選擇標簽列

選擇權重列

選擇權重列

評估指標類型

不適用,默認為 AUC 指標,可以在 worker 日志中查看。

樹數量

樹的數目

樹最大深度

最大葉節點數:換算公式為:2^( 樹最大深度- 1)

數據采樣比例

訓練樣本比例

特征采樣比例

訓練特征比例

L1懲罰項系數

暫不支持。

L2懲罰項系數

暫不支持。

學習速率

學習速率

近似Sketch精度

最大分箱個數:換算公式為:1/近似Sketch精度

最小分裂損失變化

葉節點最少樣本數:兩者不能直接換算,但都可用于控制過擬合。

特征數量

特征數量

全局偏置項

全局偏置項

隨機數產生器種子

隨機數產生器種子

特征重要性類型

不適用,當前默認為信息增益。

計算核心數

節點數:不能直接使用相同數值,推薦先試用系統自動分配,然后進行細調。

每個核內存大小

每節點內存:不能直接使用相同數值,推薦先試用系統自動分配,然后進行細調。