在數據預處理中,為了降低不同列的數據量級和范圍大小帶來的影響,需要將各列數據進行標準化操作。標準化之后,不同列的數據都會被限定到同一個數據范圍內。標準化組件假設數據符合正態分布。
使用限制
支持的計算引擎為MaxCompute和Flink。
算法簡介
標準化是假設數據符合正態分布,根據均值和方差計算對應數值的過程。
可視化配置參數
【輸入樁配置】
輸入樁(從左到右) | 限制數據類型 | 建議上游組件 | 是否必選 |
預測輸入模型 | 無 | 是 | |
預測輸入數據 | 數值類型 | 是 |
【右側參數表單】
頁簽 | 參數 | 描述 |
參數設置 | 輸出結果列列名數組 | 可選,默認情況下預測結果列替換原始輸入列內容,填寫時需要與訓練時選擇的列數保持一致,不同列用半角逗號隔開。 |
組件多線程線程個數 | 默認1。 | |
執行調優 | 節點個數 | 與單個節點內存大小參數配對使用。取值為[1, 9999]的正整數。 |
單個節點內存大小,單位M | 取值范圍為1024 MB~64*1024 MB。 |
【輸出樁說明】
輸出樁(從左到右) | 存儲位置 | 下游建議組件 | 模型類型 |
輸出結果 | 不需要配置 | 無 | 無 |
具體示例
您可以將以下代碼復制到PyAlink腳本組件中,使PyAlink腳本組件實現與該組件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
model = sources[0]
batchData = sources[1]
predictor = StandardScalerPredictBatchOp()
result = predictor.linkFrom(model, batchData)
result.link(sinks[0])
BatchOperator.execute()
文檔內容是否對您有幫助?