標(biāo)準(zhǔn)化訓(xùn)練
在數(shù)據(jù)預(yù)處理中,為了降低不同列的數(shù)據(jù)量級(jí)和范圍大小帶來的影響,需要將各列數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作。標(biāo)準(zhǔn)化之后,不同列的數(shù)據(jù)都會(huì)被限定到同一個(gè)數(shù)據(jù)范圍內(nèi)。標(biāo)準(zhǔn)化組件假設(shè)數(shù)據(jù)符合正態(tài)分布。
使用限制
支持的計(jì)算引擎為MaxCompute和Flink。
算法簡(jiǎn)介
標(biāo)準(zhǔn)化是假設(shè)數(shù)據(jù)符合正態(tài)分布,根據(jù)均值和方差計(jì)算對(duì)應(yīng)數(shù)值的過程,訓(xùn)練過程計(jì)算數(shù)據(jù)的均值和標(biāo)準(zhǔn)差。
可視化配置參數(shù)
【輸入樁配置】
輸入樁(從左到右) | 限制數(shù)據(jù)類型 | 建議上游組件 | 是否必選 |
數(shù)據(jù) | 數(shù)值類型 | 是 |
【右側(cè)參數(shù)表單】
頁簽 | 參數(shù) | 描述 |
字段設(shè)置 | 選擇的列名 | 需要處理的列名,可選擇多個(gè),只能選擇數(shù)值類型。 |
參數(shù)設(shè)置 | 是否使用均值 | 是否使用均值,默認(rèn)使用。 |
是否使用標(biāo)準(zhǔn)差 | 是否使用標(biāo)準(zhǔn)差,默認(rèn)使用。 | |
執(zhí)行調(diào)優(yōu) | 節(jié)點(diǎn)個(gè)數(shù) | 與單個(gè)節(jié)點(diǎn)內(nèi)存大小參數(shù)配對(duì)使用。取值為[1, 9999]的正整數(shù)。 |
單個(gè)節(jié)點(diǎn)內(nèi)存大小,單位M | 取值范圍為1024 MB~64*1024 MB。 |
【輸出樁說明】
輸出樁(從左到右) | 存儲(chǔ)位置 | 下游建議組件 | 模型類型 |
模型 | 不需要配置 | 無 |
具體示例
您可以將以下代碼復(fù)制到PyAlink腳本組件中,使PyAlink腳本組件實(shí)現(xiàn)與該組件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
data = sources[0]
selectedColNames = ["col2", "col3"]
modelop = StandardScalerTrainBatchOp()\
.setSelectedCols(selectedColNames)
result = modelop.linkFrom(data)
result.link(sinks[0])
BatchOperator.execute()