日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

IForest異常檢測

IForest異常檢測使用sub-sampling算法,降低了算法的計算復雜度,可以識別數據中的異常點,在異常檢測領域有顯著的應用效果。本文為您介紹IForest異常檢測的參數配置。

組件配置

您可以通過以下任意一種方式,配置IForest異常檢測參數。

方式一:可視化方式

Designer工作流頁面配置組件參數。

頁簽

參數名稱

描述

字段設置

特征列名數組

如果您已經配置了向量列名tensor列,則該參數不允許配置。

用于訓練的特征列名。

說明

特征列名數組tensor列向量列名是三個互斥參數,您只能使用其中一個參數來描述算法的輸入特征。

分組列名數組

分組列名。

tensor列

如果您已經配置了向量列名特征列名數組,則該參數不允許配置。

tensor列名。

說明

特征列名數組tensor列向量列名是三個互斥參數,您只能使用其中一個參數來描述算法的輸入特征。

向量列名

如果您已經配置了tensor列特征列名數組,則該參數不允許配置。

向量列對應的列名。

說明

特征列名數組tensor列向量列名是三個互斥參數,您只能使用其中一個參數來描述算法的輸入特征。

參數設置

預測結果列名

預測結果列的列名。

每組最大異常點數目

每組最大的異常點數目。

最大異常點比例

算法檢測異常點的最大比例。

每組最大樣本數目

每組最大的樣本數目。

模型中樹的棵數

模型中樹的棵樹,默認為100。

異常評分閾值

當評分大于該閾值時,判定為異常點。

預測詳細信息列名

預測詳細信息列的列名。

每棵樹的樣本采樣行數

每棵樹的樣本采樣行數,正整數。范圍[2,100000],默認為256。

組件多線程線程個數

組件多線程的線程個數,默認為1。

執行調優

節點個數

節點個數,與參數單個節點內存大小配對使用,正整數。范圍[1, 9999]。

單個節點內存大小,單位M

單個節點內存大小,單位MB,正整數。范圍[1024, 64*1024]。

方式二:Python代碼方式

使用PyAlink腳本組件,配置該組件參數。您可以使用PyAlink腳本組件進行Python代碼調用,詳情請參見PyAlink腳本

參數名稱

是否必選

描述

默認值

predictionCol

預測結果列的列名。

featureCols

特征列名數組。

全選

groupCols

分組列名,支持多列。

maxOutlierNumPerGroup

每組最大的異常點數目。

maxOutlierRatio

算法檢測異常點的最大比例。

maxSampleNumPerGroup

每組最大的樣本數目。

numTrees

模型中樹的棵數。

100

outlierThreshold

當評分大于該閾值時,判定為異常點。

predictionDetailCol

預測詳細信息列的列名。

tensorCol

tensor列。

vectorCol

向量列對應的列名。

subsamplingSize

每棵樹的樣本采樣行數,正整數。范圍[2,100000]。

256

numThreads

組件多線程的線程個數。

1

Python代碼方式的使用示例如下。

from pyalink.alink import *
import pandas as pd
df = pd.DataFrame([
[0.73, 0],
[0.24, 0],
[0.63, 0],
[0.55, 0],
[0.73, 0],
[0.41, 0]
])

dataOp = BatchOperator.fromDataframe(df, schemaStr='val double, label int')

outlierOp = IForestOutlierBatchOp()\
    .setFeatureCols(["val"])\
    .setOutlierThreshold(3.0)\
    .setPredictionCol("pred")\
    .setPredictionDetailCol("pred_detail")

outlierOp.print()