異常檢測用于檢測連續值和枚舉值類特征的數據,幫助您挖掘數據中的異常點。
背景信息
異常檢測的方法包括箱型圖(Box-plot)和AVF(Attribute Value Frequency):
箱型圖用于檢測連續值類特征的數據,根據箱線圖最大值和最小值檢測異常特征。
AVF用于檢測枚舉值類特征的數據,根據枚舉特征的取值頻率及閾值檢測異常特征。
組件配置
您可以使用以下任意一種方式,配置異常檢測組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
頁簽 | 參數 | 描述 |
字段設置 | 特征列 | 選擇需要分析的字段。 |
異常檢測方法 | 選擇檢測的方法。箱型圖用于檢測連續類特征。AVF用于檢測枚舉類特征。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name fe_detect_runner -project algo_public
-DselectedCols="emp_var_rate,cons_price_rate,cons_conf_idx,euribor3m,nr_employed" \
-Dlifecycle="28"
-DdetectStrategy="boxPlot"
-DmodelTable="pai_temp_2458_23565_2"
-DinputTable="pai_bank_data"
-DoutputTable="pai_temp_2458_23565_1";
參數名稱 | 參數描述 | 是否必選 |
inputTable | 輸入表的表名。 | 是 |
inputTablePartitions | 系統默認選擇所有分區。指定輸入表的分區:
| 否 |
selectedCols | 輸入特征,字段類型沒有限制。 | 是 |
detectStrategy | 系統支持Box-plot和AVF選項。Box-plot用于檢測連續值類特征。AVF用于檢測枚舉值類特征。 | 是 |
outputTable | 異常檢測結果數據集,即檢測到異常特征的數據集。 | 是 |
modelTable | 異常檢測模型。 | 是 |
lifecycle | 輸出表的生命周期,系統默認為7。 | 否 |
coreNum | 節點個數,與參數memSizePerCore配對使用,取值范圍[1,9999]。 說明 僅支持配置正整數。 | 否 |
memSizePerCore | 單個結點內存大小,取值范圍[2048,64 *1024],單位MB。 | 否 |