本文為您介紹Designer提供的卡方擬合性檢驗。卡方擬合性檢驗適用于變量為類別型變量的場景,旨在檢驗單個多項分類型變量在各分類間的實際觀測次數與理論次數是否一致,其零假設為觀測次數與理論次數無差異。
組件配置
您可以使用以下任意一種方式,配置卡方擬合性檢驗組件參數。
方式一:可視化方式
在Designer工作流頁面配置組件參數。
參數 | 描述 |
檢驗列 | 進行訓練的檢驗數據列。 |
類別概率 | 類別概率配置,格式為 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數。您可以使用SQL腳本組件進行PAI命令調用,詳情請參見SQL腳本。
PAI -name chisq_test
-project algo_public
-DinputTableName=pai_chisq_test_input
-DcolName=f0
-DprobConfig=0:0.3,1:0.7
-DoutputTableName=pai_chisq_test_output0
-DoutputDetailTableName=pai_chisq_test_output0_detail
參數 | 是否必須 | 描述 | 默認值 |
inputTableName | 是 | 輸入表的名稱。 | 無 |
colName | 是 | 列名稱 | 無 |
outputTableName | 是 | 輸出表名稱 | 無 |
outputDetailTableName | 是 | 輸出詳細表名稱。 | 無 |
inputTablePartitions | 否 | 輸入表中,參與訓練的分區。系統支持以下格式:
說明 指定多個分區時,分區之間使用英文逗號(,)分隔。 | 默認為空 |
probConfig | 否 | 類別概率配置,格式為 | 默認所有概率值相等 |
示例
測試數據
create table pai_chisq_test_input as select * from ( select '1' as f0,'2' as f1 union all select '1' as f0,'3' as f1 union all select '1' as f0,'4' as f1 union all select '0' as f0,'3' as f1 union all select '0' as f0,'4' as f1 )tmp;
PAI命令
PAI -name chisq_test -project algo_public -DinputTableName=pai_chisq_test_input -DcolName=f0 -DprobConfig=0:0.3,1:0.7 -DoutputTableName=pai_chisq_test_output0 -DoutputDetailTableName=pai_chisq_test_output0_detail
輸出說明
輸出JSON格式的表outputTableName,只有一行一列。
{ "Chi-Square": { "comment": "皮爾遜卡方", "df": 1, "p-value": 0.75, "value": 0.2380952380952381 } }
輸出詳細表outputDetailTableName,字段如下。
column name
comment
參數colName
類別
observed
觀察頻率
expected
期望頻率
residuals
標準誤差
(residuals = (observed-expected) / sqrt(expected)
數據展示
文檔內容是否對您有幫助?