国产特黄特色在线视频,台湾佬中文娱乐中文娱乐22丨,免费无码A在线观看麻豆

iTAG提供了音頻分類、音頻分割、音頻識別的語音類標注模板，創建標注任務時，您需要根據應用場景選擇標注模板。本文為您介紹語音類模板的應用場景及數據結構。

背景信息

本文介紹以下語音類標注模板的數據結構：

音頻分類
音頻分割
音頻識別

音頻分類

音頻分類（Audio Classification）是指從一組固定的分類標簽集合中，找到與輸入音頻內容相匹配的一個或多個分類標簽，并將其分配給該輸入音頻。該模板支持單標簽和多標簽音頻分類。

應用場景
場景聲音分類等。

數據結構

輸入數據
manifest文件的每行數據是一道題目，且每行數據必須包含source字段。
```
{"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
...
```

輸出數據

manifest文件的每行數據由題目和標注結果一起生成。每行數據的JSON結構如下。

{
    "data": {
        "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/6.wav"
    },
    "label-1432993193909231616": {
        "results": [
            {
                "questionId": "1", 
                "data": "標簽1", 
                "markTitle": "單選", 
                "type": "survey/value"
            }
        ]
    }
}

音頻分割

音頻分割（Audio segmentation）是指將一段音頻通過識別后，利用波形圖將音頻分割成多段，并匹配上不同的標簽內容。

應用場景
對話內容分析等。

數據結構

輸入數據
manifest文件的每行數據是一道題目，且每行數據必須包含source字段。
```
{"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
...
```

輸出數據

manifest文件的每行數據由題目和標注結果一起生成。每行數據的JSON結構如下。

{
    "data": {
        "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/21.wav"
    }, 
    "label-1435480301706092544": {
        "results": [
            {
                "duration": 0, 
                "objects": [
                    {
                        "result": {
                            "音頻識別結果": "通過音頻識別得到的結果內容1。", 
                            "單選": "標簽1"
                        }, 
                        "color": null, 
                        "id": "wavesurfer_ei0aet9uvp8", 
                        "start": 2.3886218302094817, 
                        "end": 4.635545755237045
                    }, 
                    {
                        "result": {
                            "音頻識別結果": "通過音頻識別得到的結果內容2。", 
                            "單選": "標簽2"
                        }, 
                        "color": null, 
                        "id": "wavesurfer_kl39gnlb2k", 
                        "start": 5.698280044101433, 
                        "end": 7.348048511576626
                    }
                ], 
                "empty": false
            }
        ]
    }
}

音頻識別

音頻識別ASR是指將一段音頻識別為文本內容，同時可以進行相應標簽的匹配。

應用場景
方言識別等。

數據結構

輸入數據
manifest文件的每行數據是一道題目，且每行數據必須包含source字段。
```
{"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
...
```

輸出數據

manifest文件的每行數據由題目和標注結果一起生成。每行數據的JSON結構如下。

{
    "data": {
        "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/14.wav"
    }, 
    "label-1435448359497441280": {
        "results": [
            {
                "questionId": "1", 
                "data": "通過音頻識別得到的結果內容。", 
                "markTitle": "音頻識別結果", 
                "type": "survey/value"
            }, 
            {
                "questionId": "3", 
                "data": [
                    "標簽1", 
                    "標簽2"
                ], 
                "markTitle": "多選", 
                "type": "survey/multivalue"
            }
        ]
    }
}

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

背景信息

音頻分類

音頻分割

音頻識別