主成分分析(PCA)是研究如何通過少數主成分揭示多個變量間的內部結構,考察多個變量間相關性的一種多元統計方法。PCA從原始變量中導出少數主成分,使它們盡可能多地保留原始變量的信息,并且彼此間互不相關,作為新的綜合指標。
使用限制
主成分分析算法實現了降維和降噪的功能,僅支持稠密數據格式。
組件配置
您可以使用以下任意一種方式,配置主成分分析組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
頁簽 | 參數 | 描述 |
字段設置 | 選擇特征列 | 輸入表中用于分析的列名稱。 |
附加列 | 附加在降維數據表后的列。 | |
參數設置 | 信息量比例 | 降維后數據信息占原來的比例。 |
特征分解方式 | 分解特征的方式,取值如下:
| |
數據轉換方式 | 轉換為新數據的處理方式,取值如下:
| |
執行調優 | 生命周期 | 指定輸出表的生命周期,取值為正整數。 |
節點個數 | 與單個節點內存大小參數配對使用。取值為[1, 9999]的正整數。 | |
單個節點內存大小 | 單位為兆。取值范圍為[1024, 64*1024]的正整數。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name PrinCompAnalysis
-project algo_public
-DinputTableName=bank_data
-DeigOutputTableName=pai_temp_2032_17900_2
-DprincompOutputTableName=pai_temp_2032_17900_1
-DselectedColNames=pdays,previous,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed
-DtransType=Simple
-DcalcuType=CORR
-DcontriRate=0.9;
參數名稱 | 是否必選 | 參數描述 | 默認值 |
inputTableName | 是 | 進行主成分分析的輸入表。 | 無 |
selectedColNames | 是 | 輸入表中用于分析的列名稱。 使用逗號分隔,支持INT和DOUBLE類型。 | 無 |
eigOutputTableName | 是 | 特征向量與特征值的輸出表。 | 無 |
princompOutputTableName | 是 | 進行主成分降維降噪后的結果輸出表。 | 無 |
transType | 否 | 轉換原表為主成分分析表的方式,取值如下:
| Simple |
calcuType | 否 | 對原表進行特征分解的方式,取值如下:
| CORR |
contriRate | 否 | 數據信息降維后保留的百分比。取值范圍為(0,1)。 | 0.9 |
remainColumns | 否 | 降維表保留原表的字段。 | 無 |
coreNum | 否 | 節點個數,與memSizePerCore參數配對使用。取值范圍為[1, 9999]的正整數。 | 系統自動分配。 |
memSizePerCore | 否 | 單個節點的內存大小,單位為兆。取值范圍為[1024, 64*1024]的正整數。 | 系統自動分配。 |
lifecycle | 否 | 指定輸出表的生命周期,取值為正整數。 | 無 |
示例
PCA輸出示例
降維后的數據表
特征值和特征向量表