日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

iTAG提供了音頻分類、音頻分割、音頻識別的語音類標注模板,創建標注任務時,您需要根據應用場景選擇標注模板。本文為您介紹語音類模板的應用場景及數據結構。

背景信息

本文介紹以下語音類標注模板的數據結構:

音頻分類

音頻分類(Audio Classification)是指從一組固定的分類標簽集合中,找到與輸入音頻內容相匹配的一個或多個分類標簽,并將其分配給該輸入音頻。該模板支持單標簽和多標簽音頻分類。

  • 應用場景

    場景聲音分類等。

  • 數據結構

    • 輸入數據

      manifest文件的每行數據是一道題目,且每行數據必須包含source字段。

      {"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • 輸出數據

      manifest文件的每行數據由題目和標注結果一起生成。每行數據的JSON結構如下。

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/6.wav"
          },
          "label-1432993193909231616": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "標簽1", 
                      "markTitle": "單選", 
                      "type": "survey/value"
                  }
              ]
          }
      }

音頻分割

音頻分割(Audio segmentation)是指將一段音頻通過識別后,利用波形圖將音頻分割成多段,并匹配上不同的標簽內容。

  • 應用場景

    對話內容分析等。

  • 數據結構

    • 輸入數據

      manifest文件的每行數據是一道題目,且每行數據必須包含source字段。

      {"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • 輸出數據

      manifest文件的每行數據由題目和標注結果一起生成。每行數據的JSON結構如下。

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/21.wav"
          }, 
          "label-1435480301706092544": {
              "results": [
                  {
                      "duration": 0, 
                      "objects": [
                          {
                              "result": {
                                  "音頻識別結果": "通過音頻識別得到的結果內容1。", 
                                  "單選": "標簽1"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_ei0aet9uvp8", 
                              "start": 2.3886218302094817, 
                              "end": 4.635545755237045
                          }, 
                          {
                              "result": {
                                  "音頻識別結果": "通過音頻識別得到的結果內容2。", 
                                  "單選": "標簽2"
                              }, 
                              "color": null, 
                              "id": "wavesurfer_kl39gnlb2k", 
                              "start": 5.698280044101433, 
                              "end": 7.348048511576626
                          }
                      ], 
                      "empty": false
                  }
              ]
          }
      }

音頻識別

音頻識別ASR是指將一段音頻識別為文本內容,同時可以進行相應標簽的匹配。

  • 應用場景

    方言識別等。

  • 數據結構

    • 輸入數據

      manifest文件的每行數據是一道題目,且每行數據必須包含source字段。

      {"data":{"source":"oss://tongxin-lly.oss-cn-hangzhou.aliyuncs.com/iTAG/audio/1.wav"}}
      ...
    • 輸出數據

      manifest文件的每行數據由題目和標注結果一起生成。每行數據的JSON結構如下。

      {
          "data": {
              "source": "oss://itag.oss-cn-hangzhou.aliyuncs.com/tongxin_audio/14.wav"
          }, 
          "label-1435448359497441280": {
              "results": [
                  {
                      "questionId": "1", 
                      "data": "通過音頻識別得到的結果內容。", 
                      "markTitle": "音頻識別結果", 
                      "type": "survey/value"
                  }, 
                  {
                      "questionId": "3", 
                      "data": [
                          "標簽1", 
                          "標簽2"
                      ], 
                      "markTitle": "多選", 
                      "type": "survey/multivalue"
                  }
              ]
          }
      }