日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

我們?yōu)槟峁┝送ㄓ媚P停钦Z言基礎(chǔ)模型,如果您在自己的領(lǐng)域積累了豐富的歷史數(shù)據(jù),可以使用這些歷史數(shù)據(jù)作為語料來對自定義的語言模型進(jìn)行訓(xùn)練,自定義的語言模型在訓(xùn)練時,是在通用模型的基礎(chǔ)上進(jìn)行訓(xùn)練的,通過對您的訓(xùn)練語料做模型訓(xùn)練,可以有效提高您的特有場景的語音識別準(zhǔn)確率,尤其是專有名詞和文本中的高頻詞匯,有較好的優(yōu)化效果。

視頻講解

訓(xùn)練語料要求及優(yōu)化建議

語料要求

推薦您使用 業(yè)務(wù)介紹資料產(chǎn)品介紹資料話術(shù)資料培訓(xùn)資料 模型效果評測 中進(jìn)行人工校驗(yàn)產(chǎn)出的標(biāo)注結(jié)果 作為訓(xùn)練使用的語料,對于語料文件具體的要求如下:

  1. 訓(xùn)練數(shù)據(jù)為領(lǐng)域相關(guān)的文本,與待識別語音數(shù)據(jù)越接近,優(yōu)化效果越好。

  2. 以文本文件方式保存,使用UTF-8編碼,無BOM頭;語料文件大小在1MB-20MB,文本過少可能導(dǎo)致訓(xùn)練失敗,過多會導(dǎo)致超限。

  3. 一句話或者一個被加強(qiáng)調(diào)優(yōu)的關(guān)鍵詞單獨(dú)一行,控制每行的長度在500個字符以內(nèi)(不是字節(jié))。

  4. 文本中的數(shù)字最好按照發(fā)音替換為對應(yīng)的漢字。例如:“58.9元”需要轉(zhuǎn)換為“五十八點(diǎn)九元”。

  5. 文件中需要至少有一行為句子(大于4個詞)。

  6. 只采用逗號‘,’、句號‘。’、問號‘?’和感嘆號‘!’,句尾需要加標(biāo)點(diǎn)。像書名號‘《’、‘》’,雙引號‘“’、‘”’等標(biāo)點(diǎn)應(yīng)去除。

優(yōu)化建議

對于識別不準(zhǔn)確的關(guān)鍵詞,可以將帶這個詞的句子或者關(guān)鍵詞(一個關(guān)鍵詞在訓(xùn)練文本中獨(dú)占一行)多拷貝幾行,例如10行。如果沒有效果,可以再適當(dāng)增加拷貝行數(shù)。

注意:

  1. 需要先確定關(guān)鍵詞識別不準(zhǔn)確的原因不是因?yàn)楸旧碚f的不清晰或者個別音頻質(zhì)量不好。

  2. 不要拷貝太多導(dǎo)致影響其他詞識別或者整體識別率,這個只有在實(shí)際業(yè)務(wù)中嘗試后總結(jié)經(jīng)驗(yàn)。

操作流程

新建自定義語言模型

  1. 如下圖所示,按照圖片上標(biāo)注的步驟進(jìn)行操作;1

  2. 新建成功后,在語言模型列表可以看到,剛剛新建的自定義語言模型已經(jīng)處于訓(xùn)練中了;2

優(yōu)化現(xiàn)有的自定義語言模型

通過模型編輯,您可以補(bǔ)充語料進(jìn)行再次訓(xùn)練,也可以刪除已經(jīng)上傳的語料。通用模型不可編輯。

  1. 點(diǎn)擊語言模型列表最右側(cè)的 編輯 按鈕;3

  2. 與新建語言模型類似,上傳或刪除語料后提交,該模型將會開始訓(xùn)練;

試試效果

試試效果功能,是使用指定的語言模型對已經(jīng)上傳的數(shù)據(jù)集中的文件進(jìn)行語音轉(zhuǎn)文字。對于通用模型,試試效果只能查看通用模型自己的轉(zhuǎn)寫結(jié)果,對于自定義模型,可以查看自定義模型與通用模型兩個模型的轉(zhuǎn)寫結(jié)果,可以直觀的看到兩個模型轉(zhuǎn)寫結(jié)果之間的差異,我們以自定義模型來舉例說明

  1. 點(diǎn)擊語言模型列表最右側(cè)的 試試效果 按鈕;

  2. 選擇一個數(shù)據(jù)集,然后點(diǎn)擊 開始音頻轉(zhuǎn)寫

  3. 轉(zhuǎn)寫完成后,對于兩個模型轉(zhuǎn)寫有差異的部分,會高亮顯示,如下圖: