Lasso回歸訓(xùn)練
Lasso(Least absolute shrinkage and selection operator)回歸算法是一種壓縮估計(jì)算法。Lasso回歸訓(xùn)練組件基于該算法,支持稀疏、稠密兩種數(shù)據(jù)格式,且支持帶權(quán)重樣本的訓(xùn)練。本文為您介紹Lasso回歸訓(xùn)練組件的配置方法。
使用限制
支持的計(jì)算引擎為MaxCompute、Flink或DLC。
算法原理
Lasso回歸算法通過(guò)構(gòu)造一個(gè)懲罰函數(shù),得到一個(gè)較為精煉的模型。使得它壓縮一些回歸系數(shù),即強(qiáng)制系數(shù)絕對(duì)值之和小于某個(gè)固定值,同時(shí)設(shè)定一些回歸系數(shù)為0。因此保留了子集收縮的優(yōu)點(diǎn),是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)。
可視化配置組件參數(shù)
輸入樁
輸入樁(從左到右)
數(shù)據(jù)類型
建議上游組件
是否必選
數(shù)據(jù)
無(wú)
是
模型
Lasso模型(用做增量訓(xùn)練)
讀數(shù)據(jù)表(模型數(shù)據(jù)表)
Lasso回歸訓(xùn)練
否
組件參數(shù)
頁(yè)簽
參數(shù)
描述
字段設(shè)置
標(biāo)簽列名
輸入表中的標(biāo)簽列名。
特征列名數(shù)組
如果您已經(jīng)配置了向量列名,則該參數(shù)不允許配置。
用于訓(xùn)練的特征列名。
說(shuō)明特征列名數(shù)組和向量列名是兩個(gè)互斥參數(shù),您只能使用其中一個(gè)參數(shù)來(lái)描述算法的輸入特征。
向量列名
如果您已經(jīng)配置了特征列名數(shù)組,則該參數(shù)不允許配置。
向量列對(duì)應(yīng)的列名。
說(shuō)明特征列名數(shù)組和向量列名是兩個(gè)互斥參數(shù),您只能使用其中一個(gè)參數(shù)來(lái)描述算法的輸入特征。
權(quán)重列名
權(quán)重列對(duì)應(yīng)的列名。
參數(shù)設(shè)置
懲罰因子:lambda
正則項(xiàng)系數(shù),DOUBLE類型。
收斂閾值
迭代方法的終止判斷閾值,默認(rèn)為1.0E~6。
學(xué)習(xí)率
用于控制模型在訓(xùn)練過(guò)程中參數(shù)更新的速度。默認(rèn)為0.1。
最大迭代步數(shù)
最大迭代步數(shù),默認(rèn)為100。
優(yōu)化方法
優(yōu)化問(wèn)題求解時(shí)選擇的優(yōu)化方法,支持以下取值:
LBFGS
GD
Newton
SGD
OWLQN
執(zhí)行調(diào)優(yōu)
節(jié)點(diǎn)個(gè)數(shù)
與單個(gè)節(jié)點(diǎn)內(nèi)存大小參數(shù)配對(duì)使用。取值為[1, 9999]的正整數(shù)。
單個(gè)節(jié)點(diǎn)內(nèi)存大小,單位M
取值范圍為1024 MB~64*1024 MB。
輸出樁
輸出樁(從左到右)
數(shù)據(jù)類型
下游組件
模型
回歸模型
模型信息
無(wú)
無(wú)
特征重要性
無(wú)
無(wú)
線性模型權(quán)重系數(shù)
無(wú)
無(wú)
通過(guò)代碼方式配置組件
您可以將以下代碼復(fù)制到PyAlink腳本組件中,使PyAlink腳本組件實(shí)現(xiàn)與該組件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = LassoRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()