混淆矩陣
混淆矩陣(Confusion Matrix)適用于監(jiān)督學(xué)習(xí),與無(wú)監(jiān)督學(xué)習(xí)中的匹配矩陣對(duì)應(yīng)。在精度評(píng)價(jià)中,混淆矩陣主要用于比較分類(lèi)結(jié)果和實(shí)際測(cè)量值,可以將分類(lèi)結(jié)果的精度顯示在一個(gè)矩陣中。本文為您介紹混淆矩陣組件的配置方法。
使用限制
支持的計(jì)算引擎為MaxCompute。
組件配置
您可以使用以下任意一種方式,配置混淆矩陣組件參數(shù)。
方式一:可視化方式
在Designer工作流頁(yè)面配置組件參數(shù)。
參數(shù) | 描述 |
原數(shù)據(jù)的標(biāo)簽列列名 | 支持?jǐn)?shù)值類(lèi)型。 |
預(yù)測(cè)結(jié)果的標(biāo)簽列列名 | 如果未配置閾值,則該參數(shù)必選。 |
閾值 | 大于該參數(shù)值的樣本為正樣本。 |
預(yù)測(cè)結(jié)果的詳細(xì)列列名 | 與預(yù)測(cè)結(jié)果的標(biāo)簽列列名不能共存。如果已配置閾值,則該參數(shù)必選。 |
正樣本的標(biāo)簽值 | 如果已配置閾值,則該參數(shù)必選。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請(qǐng)參見(jiàn)SQL腳本。
未指定閾值
pai -name confusionmatrix -project algo_public -DinputTableName=wpbc_pred -DoutputTableName=wpbc_confu -DlabelColName=label -DpredictionColName=prediction_result;
指定閾值
pai -name confusionmatrix -project algo_public -DinputTableName=wpbc_pred -DoutputTableName=wpbc_confu -DlabelColName=label -DpredictionDetailColName=prediction_detail -Dthreshold=0.8 -DgoodValue=N;
參數(shù) | 是否必選 | 描述 | 默認(rèn)值 |
inputTableName | 是 | 輸入表的名稱(chēng),即預(yù)測(cè)輸出表。 | 無(wú) |
inputTablePartition | 否 | 輸入表的分區(qū)。 | 全表 |
outputTableName | 是 | 輸出表的名稱(chēng),用于存儲(chǔ)混淆矩陣。 | 無(wú) |
labelColName | 是 | 原始標(biāo)簽列的名稱(chēng)。 | 無(wú) |
predictionColName | 否 | 預(yù)測(cè)結(jié)果列的名稱(chēng)。如果未配置threshold,則該參數(shù)必選。 | 無(wú) |
predictionDetailColName | 否 | 預(yù)測(cè)結(jié)果詳細(xì)列的名稱(chēng)。如果已配置threshold,則該參數(shù)必選。 | 無(wú) |
threshold | 否 | 劃分正樣本的閾值。 | 0.5 |
goodValue | 否 | 二分類(lèi)時(shí),指定訓(xùn)練系數(shù)對(duì)應(yīng)的標(biāo)簽值。如果已配置threshold,則該參數(shù)必選。 | 無(wú) |
coreNum | 否 | 計(jì)算的核心數(shù)量。 | 系統(tǒng)自動(dòng)分配 |
memSizePerCore | 否 | 每個(gè)核心的內(nèi)存,單位為MB。 | 系統(tǒng)自動(dòng)分配 |
lifecycle | 否 | 輸出表的生命周期。 | 無(wú) |
示例
用MaxCompute客戶(hù)端創(chuàng)建表test_data,其中列字段和數(shù)據(jù)類(lèi)型為
id bigint、label string、prediction_result string
。關(guān)于MaxCompute客戶(hù)端的安裝及配置請(qǐng)參見(jiàn)使用本地客戶(hù)端(odpscmd)連接,如何創(chuàng)建表,請(qǐng)參見(jiàn)創(chuàng)建表。將如下測(cè)試數(shù)據(jù)導(dǎo)入到表test_data中。如何導(dǎo)入數(shù)據(jù),請(qǐng)參見(jiàn)導(dǎo)入數(shù)據(jù)。
id
label
prediction_result
0
A
A
1
A
B
2
A
A
3
A
A
4
B
B
5
B
B
6
B
A
7
B
B
8
B
A
9
A
A
構(gòu)建如下工作流,并運(yùn)行組件,詳情請(qǐng)參見(jiàn)算法建模。
在Designer左側(cè)組件列表中,分別搜索讀數(shù)據(jù)表組件和混淆矩陣組件,并拖入右側(cè)畫(huà)布中。
參照上圖,通過(guò)連線的方式,將各個(gè)節(jié)點(diǎn)組織構(gòu)建成為一個(gè)有上下游關(guān)系的工作流。
配置組件參數(shù)。
在畫(huà)布中單擊讀數(shù)據(jù)表-1組件,在右側(cè)表選擇頁(yè)簽,配置表名為test_data。
在畫(huà)布中單擊混淆矩陣-1組件,在右側(cè)配置如下表中的參數(shù),其余參數(shù)使用默認(rèn)值。
參數(shù)
描述
原數(shù)據(jù)的標(biāo)簽列列名
選擇label列。
預(yù)測(cè)結(jié)果的標(biāo)簽列列名
輸入prediction_result。
參數(shù)配置完成后,單擊運(yùn)行按鈕,運(yùn)行工作流。
工作流運(yùn)行成功后,右鍵單擊混淆矩陣-1組件,在快捷菜單,選擇可視化分析,查看混淆矩陣組件的輸出結(jié)果。
單擊混淆矩陣頁(yè)簽,查看輸出的混淆矩陣。
單擊統(tǒng)計(jì)信息頁(yè)簽,查看模型統(tǒng)計(jì)信息。
相關(guān)文檔
關(guān)于Designer組件更詳細(xì)的內(nèi)容介紹,請(qǐng)參見(jiàn)Designer概述。
Designer預(yù)置了多種算法組件,你可以根據(jù)不同的使用場(chǎng)景選擇合適的組件進(jìn)行數(shù)據(jù)處理,詳情請(qǐng)參見(jiàn)組件參考:所有組件匯總。