XGBoost算法在Boosting算法的基礎上進行了擴展和升級,具有較好的易用性和魯棒性,被廣泛用在各種機器學習生產系統和競賽領域,該算法支持分類和回歸。XGBoost預測組件是在開源社區的基礎上進行包裝,您可以使用該組件對XGBoost訓練組件生成的模型進行離線推理。本文為您介紹該組件的配置方法。
使用限制
支持的計算引擎為MaxCompute、Flink和DLC。
數據格式
當前支持Table格式和LibSVM格式的數據。
Table格式示例如下:
f0
f1
label
0.1
1
0
0.9
2
1
LibSVM格式示例如下:
示例數據
1 2:1 9:1 10:1 20:1 29:1 33:1 35:1 39:1 40:1 52:1 57:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 104:1 116:1 123:1
0 0:1 9:1 18:1 20:1 23:1 33:1 35:1 38:1 41:1 52:1 55:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 105:1 115:1 121:1
1 2:1 8:1 18:1 20:1 29:1 33:1 35:1 39:1 41:1 52:1 57:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 104:1 116:1 123:1
0 2:1 9:1 13:1 21:1 28:1 33:1 36:1 38:1 40:1 53:1 57:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 97:1 105:1 113:1 119:1
0 0:1 9:1 18:1 20:1 22:1 33:1 35:1 38:1 44:1 52:1 55:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 104:1 115:1 121:1
0 0:1 8:1 18:1 20:1 23:1 33:1 35:1 38:1 41:1 52:1 55:1 64:1 68:1 76:1 85:1 87:1 91:1 94:1 101:1 105:1 116:1 121:1
可視化配置組件參數
Designer支持通過可視化方式,配置XGBoost預測組件參數。
參數名 | 類型 | 參數描述 | |
字段設置 | 算法保留列名 | 字符串數組 | 保留列。 |
特征列名數組 | 字符串數組 | 表格數據中特征列。和向量列名互斥,代表輸入數據的格式為表格數據。 | |
向量列名 | 字符串 | LibSVM格式數據列名,和特征列名數組互斥。代表輸入數據的格式為LibSVM數據。 | |
參數設置 | 預測結果列名 | 字符串 | 預測結果輸出列名。 |
執行調優 | 節點個數 | 正整數 | 與單個節點內存大小參數配對使用。取值范圍為[1, 9999]。 |
單個節點內存大小 | 正整數 | 單位為兆。取值范圍為[1024, 64*1024]。 |
使用示例
本示例使用Designer預置模板,通過希格斯玻色子事件的分類場景,介紹如何在Designer中使用XGBoost算法。關于如何創建使用XGBoost算法探究希格斯玻色子事件分類案例工作流,請參見創建工作流:預置模板。
其中:
XGBoost預測組件輸出為原生XGBoost庫輸出的JSON序列化,如果您想在工作流中接入二分類評估組件,您需要在XGBoost預測組件的下游接入SQL腳本組件,并配置以下代碼,將XGBoost預測組件輸出的JSON序列化轉換為二分類評估組件需要的格式。更多內容,詳情請參見XGBoost參數說明。
set odps.sql.udf.getjsonobj.new=true;
select *, CONCAT("{\"0\":", 1.0-prob, ",\"1\":", prob, "}") as detail
FROM (
select *, cast(get_json_object(pred, '$[0]') as double) as prob FROM ${t1})
相關文檔
XGBoost預測組件與XGBoost訓練組件配合使用,關于XGBoost訓練組件的配置方法,請參見XGBoost訓練。
Designer預置了多種算法組件,你可以根據不同的使用場景選擇合適的組件進行數據處理,詳情請參見組件參考:所有組件匯總。