嶺回歸(Tikhonov regularization)算法是對不適定問題進行回歸分析時,最常用的正則化方法。嶺回歸訓練組件基于該算法,支持稀疏、稠密兩種數據格式,且支持帶權重樣本的訓練。本文為您介紹嶺回歸訓練組件的配置方法。
使用限制
支持的計算引擎為MaxCompute、Flink或DLC。
算法原理
嶺回歸是一種專用于共線性數據分析的有偏估計回歸方法,實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數更為符合實際、更可靠的回歸方法,對病態數據的擬合要強于最小二乘法。
可視化配置組件參數
輸入樁
輸入樁(從左到右)
數據類型
建議上游組件
是否必選
數據
無
是
模型
無
否
組件參數
頁簽
參數
描述
字段設置
標簽列名
輸入表中的標簽列名。
特征列名數組
如果您已經配置了向量列名,則該參數不允許配置。
用于訓練的特征列名。
說明特征列名數組和向量列名是兩個互斥參數,您只能使用其中一個參數來描述算法的輸入特征。
向量列名
如果您已經配置了特征列名數組,則該參數不允許配置。
向量列對應的列名。
說明特征列名數組和向量列名是兩個互斥參數,您只能使用其中一個參數來描述算法的輸入特征。
權重列名
權重列對應的列名。
參數設置
懲罰因子:lambda
正則項系數,DOUBLE類型。
收斂閾值
迭代方法的終止判斷閾值,默認為1.0E~6。
學習率
用于控制模型在訓練過程中參數更新的速度。默認為0.1。
最大迭代步數
最大迭代步數,默認為100。
優化方法
優化問題求解時選擇的優化方法,支持以下取值:
LBFGS
GD
Newton
SGD
OWLQN
執行調優
節點個數
與單個節點內存大小參數配對使用。取值為[1, 9999]的正整數。
單個節點內存大小,單位M
取值范圍為1024 MB~64*1024 MB。
輸出樁
輸出樁(從左到右)
數據類型
下游組件
模型
回歸模型
模型信息
無
無
特征重要性
無
無
線性模型權重系數
無
無
通過代碼方式配置組件
您可以將以下代碼復制到PyAlink腳本組件中,使PyAlink腳本組件實現與該組件相同的功能。
from pyalink.alink import *
def main(sources, sinks, parameter):
batchData = sources[0]
ridge = RidgeRegTrainBatchOp()\
.setLambda(0.1)\
.setFeatureCols(["f0","f1"])\
.setLabelCol("label")
model = batchData.link(ridge)
model.link(sinks[0])
BatchOperator.execute()