組件實現缺失值填充功能,填充策略支持最大值、最小值、均值和指定數值四種。
使用限制
支持的計算引擎為MaxCompute和Flink。
算法簡介
數據缺失值模型訓練,缺失值填充支持4種策略,最大值、最小值、均值、指定數值。當策略為指定數值時,需要設置參數填充缺失值。
可視化配置參數
【輸入樁配置】
輸入樁(從左到右) | 限制數據類型 | 建議上游組件 | 是否必選 |
數據 | 存儲在MaxCompute或OSS的結構化數據 | 是 |
【右側參數表單】
頁簽 | 參數 | 描述 |
字段設置 | 選擇的列名 | 選擇需要填充缺失值的列名,僅支持數值類型。 |
參數設置 | 填充缺失值 | 當缺失值填充規則配置為VALUE時,需要配置該參數。 自定義的填充值,將缺失值替換為您設置的缺失值。 |
缺失值填充規則 | 取值如下:
| |
執行調優 | 節點個數 | 與單個節點內存大小參數配對使用。取值為[1, 9999]的正整數 |
單個節點內存大小,單位M | 取值范圍為1024 MB~64*1024 MB |
【輸出樁說明】
輸出樁(從左到右) | 下游建議組件 | 模型類型 |
模型 | 缺失值填充模型 |
具體示例
您可以將以下代碼復制到PyAlink腳本組件中,使PyAlink腳本組件實現與該組件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
data = sources[0]
selectedColNames = ["col2", "col3"]
trainOp = ImputerTrainBatchOp()\
.setSelectedCols(selectedColNames)
result = trainOp.linkFrom(data)
result.link(sinks[0])
BatchOperator.execute()
文檔內容是否對您有幫助?