在數據預處理中,為了降低不同列的數據量級和范圍大小帶來的影響,需要將各列數據進行歸一化操作。歸一化之后,不同列的數據都會被限定到同一個數據范圍內。
使用限制
支持的計算引擎為MaxCompute和Flink。
算法簡介
將數據轉換到minValue和maxValue之間,value最終結果為 (value - min) / (max - min) * (maxValue - minValue) + minValue,最終結果的范圍為[minValue, maxValue]。
minValue和maxValue由用戶指定,默認為0和1。
生成的最大值最小值歸一化模型在歸一化預處理組件中使用。
可視化配置參數
【輸入樁配置】
輸入樁(從左到右) | 限制數據類型 | 建議上游組件 | 是否必選 |
數據 | 數值類型 | 無 | 是 |
【右側參數表單】
頁簽 | 參數 | 描述 |
字段設置 | 選擇的列名 | 需要處理的列名列表,只能選擇數值類型。 |
參數設置 | 歸一化的上界 | 類型為DOUBLE,默認值為1.0。 |
歸一化的下界 | 類型為DOUBLE,默認值為0.0。 | |
執行調優 | 節點個數 | 與單個節點內存大小參數配對使用。取值為[1, 9999]的正整數。 |
單個節點內存大小,單位M | 取值范圍為1024 MB~64*1024 MB。 |
【輸出樁說明】
輸出樁(從左到右) | 存儲位置 | 下游建議組件 | 模型類型 |
模型 | 不需要配置 | 無 |
具體示例
您可以將以下代碼復制到PyAlink腳本組件中,使PyAlink腳本組件實現與該組件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
data = sources[0]
selectedColNames = ["col2", "col3"]
trainOp = MinMaxScalerTrainBatchOp()\
.setSelectedCols(selectedColNames)
result = trainOp.linkFrom(data)
result.link(sinks[0])
BatchOperator.execute()
文檔內容是否對您有幫助?