iTAG提供了實體識別、文本分類、實體關系的文本類標注模板,創建標注任務時,您需要根據應用場景選擇標注模板。本文為您介紹文本類標注模板的應用場景及數據結構。
背景信息
實體識別
實體識別NER標注任務是對文本中的具體內容進行框選,并添加標簽。
應用場景
商品主體詞識別、新聞主體詞識別等。
數據結構
輸入數據
manifest文件的每行數據是一道題目,且每行數據必須包含source字段。
{"data":{"source":"阿里巴巴收購兩家服務美國小企業的電子商務解決方案供應商Vendio及Auctiva。同月,手機淘寶客戶端推出。"}} ...
輸出數據
manifest文件的每行數據由題目和標注結果一起生成。每行數據的JSON結構如下。
{ "data": { "source": "阿里巴巴收購兩家服務美國小企業的電子商務解決方案供應商Vendio及Auctiva。同月,手機淘寶客戶端推出。" }, "label-1430082002522152960": { "results": [ { "objects": [ { "result": { "文本內容": [ "標簽1" ] }, "color": null, "id": null, "text": "ocr本文的識別內容1", "start": 49, "end": 51 }, { "result": { "文本內容": [ "標簽2", "標簽3" ] }, "color": null, "id": null, "text": "ocr本文的識別內容2", "start": 34, "end": 40 }, ], "empty": false } ] } }
文本分類
文本分類(Text Classification)是指在一組固定的分類標簽集合中,找到與輸入文本內容相匹配的一個或多個分類標簽,并將其分配給該輸入文本。該分類模板支持單標簽和多標簽。
應用場景
新聞推薦、知識管理及垃圾信息過濾等。
數據結構
輸入數據
manifest文件的每行數據是一道題目,且每行數據必須包含source字段。
{"data":{"source":"阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚劃算。"}} ...
輸出數據
manifest文件的每行數據由題目和標注結果一起生成。每行數據的JSON結構如下。
{ "data": { "source": "阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚劃算。" }, "label-1432989439570944000": { "results": [ { "questionId": "2", "data": [ "標簽2", "標簽1" ], "markTitle": "多選", "type": "survey/multivalue" } ] } }
實體關系
實體關系(三元組和Knowledge Graph)標注任務,主要是針對知識圖譜的場景,對實體詞之間的關系添加標簽。
應用場景
知識圖譜等。
數據結構
輸入數據
manifest文件的每行數據是一道題目,且每行數據必須包含source字段。
{"data":{"source":"阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚劃算。"}} ...
輸出數據
manifest文件的每行數據由題目和標注結果一起生成。每行數據的JSON結構如下。
{ "data": { "source": "阿里巴巴更改其中國交易市場的名稱為“1688”。同月,淘寶網推出團購網站聚劃算。" }, "label-1435488346167255040": { "results": [ { "objects": [ { "result": { "多選": [ "標簽3" ] }, "color": null, "id": null, "text": "團購網站", "start": 32, "end": 35 }, { "result": { "多選": [ "標簽2" ] }, "color": null, "id": null, "text": "1688", "start": 18, "end": 21 }, { "result": { "多選": [ "標簽1" ] }, "color": null, "id": null, "text": "交易市場", "start": 9, "end": 12 } ], "empty": false }, [ { "result": { "單選": "標簽4" }, "from": { "x": -225, "y": -126, "start": 9, "end": 12, "text": "交易市場" }, "to": { "x": -233, "y": 75, "start": 18, "end": 21, "text": "1688" } }, { "result": { "單選": "標簽6" }, "from": { "x": -225, "y": -126, "start": 9, "end": 12, "text": "交易市場" }, "to": { "x": 24, "y": -93, "start": 32, "end": 35, "text": "團購網站" } }, { "result": { "單選": "標簽4" }, "from": { "x": -233, "y": 75, "start": 18, "end": 21, "text": "1688" }, "to": { "x": 24, "y": -93, "start": 32, "end": 35, "text": "團購網站" } } ] ] } }
文檔內容是否對您有幫助?