司法裁判文書(事實認定)。
司法裁判文書(事實認定):抽取司法裁判文書中事實認定的實體,屬于自學習平臺模型訓練算法服務。目前該服務處于試運行階段,需要提交申請開白名單使用,您可以添加自學習平臺答疑二群(釘釘群號:44619071)詳細咨詢提交申請。
自學習服務使用前,請確認是否已經開通了NLP自學習平臺服務,開通后可購買資源包。
NLP自學習平臺:開通地址
自學習平臺資源包:購買地址
一、創建項目
在NLP自學習平臺中【單擊進入自學習管控臺】,支持多個基本項目和應用算法。在本教程中,我們將引導您掌握通過自學習平臺創建一個“司法裁判文書(事實認定)”的項目。
進入“我的項目”或“創建項目”,選擇“司法裁判文書(事實認定)”算法單擊“創建”。在接下拉的頁面填寫項目名稱和項目描述即可。
二、數據準備
進入“我的項目”后,可以在數據中心中管理您的數據,有兩種方式可以創建數據:
1、創建標注任務;2、上傳數據集。
2.1創建標注任務
步驟一:上傳待標注文檔,添加標注人員
創建者和項目管理員默認為標注人員,同時,您也可以將標注任務分配給您創建的阿里云子賬號,被分配用戶通過子賬號的賬號密碼登錄本平臺,即可參與數據標注。
子賬號登錄說明:
1、子賬號登錄頁,登錄:https://signin.aliyun.com/login.htm
2、登錄后,單擊進入我的項目-創建標注任務。
注意:目前僅支持UTF-8編碼方式的數據文件
步驟二:添加自定義標簽
司法裁判文書內置10+個無需標注的實體標簽,模型訓練的數據標注成本低至原本的50%以下。
選擇本次標注需要優化的預置字段,并逐個添加需要標注的自定義標簽字段名;
步驟三:標注數據
2.2 上傳數據集
由于模型需要通過標注數據來從中學習規律,因此我們首先要準備好一個標注數據集。
對于用戶已經積累了一部分標注數據的情況,我們需要您按照自學習平臺所支持的輸入格式進行組織,并且上傳。
自行上傳的標注數據為JSON格式,且需要符合以下格式,其中文本的內容放在“content”中,而標簽的內容放在“records”中,records 中key 為實體名,value 為標注內容在原文中的偏移量。
{
"id_0001": { // 這是該文檔在您數據集里的唯一標示
"content": "2021年9月4日15時許,被告人劉*立醉酒后駕駛一輛牌照號為浙b**208的小型汽車,行駛至本區大碶街道壩頭路與鎮大路交叉口附近路段時,與被害人韓*紅駕駛的小型轎車發生刮擦,造成車輛受損的交通事故。后經寧波市公安局北侖分局交通**大隊認定,被告人劉*立承擔此次事故的全部責任。寧波市公安局北侖分局交通**大隊民警到場處理交通事1故時發現被告人劉*立有酒后駕車嫌疑,處警民警遂對劉*立進行現場檢測。經檢測,被告人劉*立呼氣酒精含量為212mg/100m1,后經血樣檢測,其血樣乙醇濃度為219mg/100m1。案發后,被告人劉*立與韓*紅就民事賠償問題達成協議,并已實際履行。",
"records": {
"作案地點": [{
"span": "解放街上由東往西方向行駛",
"offset": [ //標注字段真實字節的偏移量,首字節的偏移量為0。
127,
139
]
}],
"呼氣式血液酒精含量": [{
"span": "106mg/100ml",
"offset": [
212,
223
]
},
}]
}
}
}
三、創建模型
在“模型中心”單擊“創建模型”;
查看模型詳情,單擊模型右側“查看”按鈕查看模型詳情。
模型詳情頁
模型測試
模型訓練完成后,可對訓練好的模型進行線上測試模型效果;
平臺模型測試
基于平臺已訓練好的模型進行文本測試,可以針對需要提升的標簽準確率進行單獨訓練;