皮爾森系數(shù)
皮爾森系數(shù)是一種線性相關(guān)系數(shù),用于反映兩個變量線性相關(guān)程度的統(tǒng)計量。機器學(xué)習(xí)中,皮爾森系數(shù)用于計算輸入表或分區(qū)兩列(數(shù)值列)的Pearson相關(guān)系數(shù),計算結(jié)果輸出至輸出表。
組件配置
您可以使用以下任意一種方式,配置皮爾森系數(shù)組件參數(shù)。
方式一:可視化方式
在Designer工作流頁面配置組件參數(shù)。
頁簽 | 參數(shù) | 描述 |
IO/字段設(shè)置 | 輸入列1 | 輸入計算相關(guān)系數(shù)列名。 |
輸入列2。 | 輸入計算相關(guān)系數(shù)列名。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進行PAI命令調(diào)用,詳情請參見SQL腳本。
pai -name pearson
-project algo_public
-DinputTableName=wpbc
-Dcol1Name=f1
-Dcol2Name=f2
-DoutputTableName=wpbc_pear;
參數(shù)名稱 | 參數(shù)描述 | 是否必選 |
inputTableName | 輸入表的表名。 | 是 |
inputTablePartitions | 系統(tǒng)默認選擇所有分區(qū)。指定輸入表的分區(qū):
| 否 |
col1Name | 輸入列1的列名。 | 是 |
col2Name | 輸入列2的列名。 | 是 |
outputTableName | 輸出結(jié)果表的表名。 | 是 |
lifecycle | 輸出表的生命周期。系統(tǒng)默認無生命周期。 說明 僅支持輸入正整數(shù)。 | 否 |
示例
輸入表
create table pai_pearson_test_input as select * from ( select 1.0 as f0,0.11 as f1 union all select 2.0 as f0,0.12 as f1 union all select 3.0 as f0,0.13 as f1 union all select 5.0 as f0,0.15 as f1 union all select 8.0 as f0,0.18 as f1 )tmp;
PAI命令
pai -name pearson -project algo_public -DinputTableName=pai_pearson_test_input -Dcol1Name=f0 -Dcol2Name=f1 -DoutputTableName=pai_pearson_test_output;
輸出表
+------------+------------+------------+------------+-------------+-------------+---------------------+ | src_table | src_parts | col1_name | col2_name | count_total | count_valid | pearson_coefficient | +------------+------------+------------+------------+-------------+-------------+---------------------+ | sre_mpi_algo_dev.pai_pearson_test_input | | f0 | f1 | 5 | 5 | 0.9999999999999973 | +------------+------------+------------+------------+-------------+-------------+---------------------+
文檔內(nèi)容是否對您有幫助?