條件隨機場預測是基于linearCRF在線預測模型的算法組件,主要應用于處理序列標注問題。本文為您介紹條件隨機場預測算法組件的參數配置和使用示例。
參數配置
Designer支持通過可視化方式配置組件參數。
參數 | 描述 |
請選擇ID列 | 樣本以N元組的形式存儲,ID列為一條樣本的唯一ID。 |
請選擇特征列 | 要進行標注的單詞,以及該單詞對應的特征。 |
請選擇目標列 | 選擇目標列。 |
預測結果列列名 | 預測結果列的名稱,默認值為prediction_result。 |
預測分數列列名 | 預測分數列的名稱,默認值為prediction_score。 |
預測詳細列列名 | 預測詳細列的名稱。如果不需要詳細列,可以置空。 |
使用示例
在LinearCRF的在線預測階段,必須使用Model IO形式的訓練模型,訓練數據表的格式如下所示。
sentence_id | word | f1 | f2 | label |
1 | Rockwell | NNP | POS | B-NP |
1 | International | NNP | NP | I-NP |
1 | Corp | NNP | PO | I-NP |
1 | 's | POS | NN | B-NP |
... | ... | ... | ... | ... |
輸入格式中特征的名字word、f1和f2與訓練數據表中特征的列名相同。在一個在線預測輸入請求中,不同單詞的特征使用空格分隔。LinearCRF在線預測模型的輸入格式如下所示。
{
"inputs":[
{
"word":{
"dataType": 50,
"dataValue":"Rockwell International Corp 's ..."
},
"f1": {
"dataType": 50,
"dataValue":"NNP NNP NNP POS ..."
},
"f2": {
"dataType": 50,
"dataValue":"POS NP PO NN ..."
}
}]
}
輸出格式會在outputValue中以JSON格式輸出一個與輸入請求中所有單詞對應的prediction_result,prediction_score和prediction_detail。LinearCRF在線預測模型的輸出格式如下所示。
{
"outputs": [
{
"outputLabel": "CRFProcessor_Result",
"outputValue": {
"dataType": 50,
"dataValue": {
"Rockwell NNP POS": {
"prediction_result":"B-NP",
"prediction_score":0.99,
"prediction_detail":{"B-ADJP":0.000145, "B-NP":0.99, ...}
},
"International NNP NP": ...
}
}
}
]
}
如果您的輸入格式有錯誤,程序會給出提示信息,具體如下所示。
{
"outputs": [
{
"outputLabel": "CRFProcessor_Result",
"outputValue": {
"dataType":50,
"dataValue": "Failed: The input format is incorrect"
}
}
]
}
文檔內容是否對您有幫助?