特征重要性過濾組件為線性特征重要性、GBDT特征重要性和隨機森林特征重要性等組件提供過濾功能,支持過濾TopN的特征。

組件配置

PAI命令
PAI -name fe_filter_runner -project algo_public
    -DselectedCols=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed,age,campaign,poutcome
    -DinputTable=pai_dense_10_10
    -DweightTable=pai_temp_2252_20319_1
    -DtopN=5
    -DmodelTable=pai_temp_2252_20320_2
    -DoutputTable=pai_temp_2252_20320_1;
參數 描述 是否必選
inputTable 輸入表名。
inputTablePartitions 系統(tǒng)默認選擇所有分區(qū)。指定輸入表的分區(qū):
  • 指定單個分區(qū),格式為partition_name=value
  • 指定多個分區(qū),格式為name1=value1,name2=value2
    說明 多個分區(qū)之間用英文逗號(,)分隔。
  • 指定多級分區(qū),格式為name1=value1/name2=value2
weightTable 特征重要性的權重表(即線性特征重要性、GBDT特征重要性、隨機森林特征重要性的輸出表)。
outputTable 過濾出TopN特征的輸出表。
modelTable 特征過濾產出的模型文件。
selectedCols 默認輸入表的所有字段列名。
topN TopN特征,默認10。
說明 僅支持輸入正整數。
lifecycle 輸出表生命周期,默認7。
說明 僅支持輸入正整數。