日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

主成分分析

主成分分析(PCA)是研究如何通過少數主成分揭示多個變量間的內部結構,考察多個變量間相關性的一種多元統計方法。PCA從原始變量中導出少數主成分,使它們盡可能多地保留原始變量的信息,并且彼此間互不相關,作為新的綜合指標。

使用限制

主成分分析算法實現了降維和降噪的功能,僅支持稠密數據格式。

組件配置

您可以使用以下任意一種方式,配置主成分分析組件參數。

方式一:可視化方式

Designer工作流頁面配置組件參數。

頁簽

參數

描述

字段設置

選擇特征列

輸入表中用于分析的列名稱。

附加列

附加在降維數據表后的列。

參數設置

信息量比例

降維后數據信息占原來的比例。

特征分解方式

分解特征的方式,取值如下:

  • CORR

  • COVAR_SAMP

  • COVAR_POP

數據轉換方式

轉換為新數據的處理方式,取值如下:

  • Simple

  • Sub-Mean

  • Normalization

執行調優

生命周期

指定輸出表的生命周期,取值為正整數。

節點個數

單個節點內存大小參數配對使用。取值為[1, 9999]的正整數。

單個節點內存大小

單位為兆。取值范圍為[1024, 64*1024]的正整數。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本

PAI -name PrinCompAnalysis
    -project algo_public
    -DinputTableName=bank_data
    -DeigOutputTableName=pai_temp_2032_17900_2
    -DprincompOutputTableName=pai_temp_2032_17900_1
    -DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
    -DtransType=Simple
    -DcalcuType=CORR
    -DcontriRate=0.9;

參數名稱

是否必選

參數描述

默認值

inputTableName

進行主成分分析的輸入表。

selectedColNames

輸入表中用于分析的列名稱。

使用逗號分隔,支持INT和DOUBLE類型。

eigOutputTableName

特征向量與特征值的輸出表。

princompOutputTableName

進行主成分降維降噪后的結果輸出表。

transType

轉換原表為主成分分析表的方式,取值如下:

  • Simple

  • Sub-Mean

  • Normalization

Simple

calcuType

對原表進行特征分解的方式,取值如下:

  • CORR

  • COVAR_SAMP

  • COVAR_POP

CORR

contriRate

數據信息降維后保留的百分比。取值范圍為(0,1)

0.9

remainColumns

降維表保留原表的字段。

coreNum

節點個數,與memSizePerCore參數配對使用。取值范圍為[1, 9999]的正整數。

系統自動分配。

memSizePerCore

單個節點的內存大小,單位為兆。取值范圍為[1024, 64*1024]的正整數。

系統自動分配。

lifecycle

指定輸出表的生命周期,取值為正整數。

示例

PCA輸出示例

  • 降維后的數據表降為數據表

  • 特征值和特征向量表特征值和特征向量表