[發明專利]特定領域語言模型生成方法及語音數據標注系統有效
| 申請號: | 201811099240.6 | 申請日: | 2018-09-20 |
| 公開(公告)號: | CN110930993B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 孫玨;李潔瓊;邵鵬 | 申請(專利權)人: | 蔚來(安徽)控股有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 王星;楊美靈 |
| 地址: | 230601 安徽省合*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特定 領域 語言 模型 生成 方法 語音 數據 標注 系統 | ||
本發明涉及一種特定領域語言模型生成方法,包括:基于第一文本集建立第一語言模型;基于第一語言模型來進行特定領域的語料擴展,以獲得第二文本集;基于第二文本集建立第二語言模型;針對第一文本集和第二文本集的重合詞元,將重合詞元在第一語言模型上的詞概率與其在第二語言模型上的詞概率進行插值運算,以建立第三語言模型。這種方法集成了通用語言模型的適用廣度,以及特定領域中對專業詞匯的識別精度的特征,有利于提高新語言模型的識別準確度和應用普適性。
技術領域
本發明涉及語音識別技術領域,更具體地說,涉及一種特定領域語言模型生成方法以及一種語音數據標注系統。
背景技術
在語音識別研究領域,語料資源的標注以及信息的校對工作一直是困擾研究人員的難題。因為這樣的工作通常涉及繁瑣的人力操作,而并沒有太多的專業性要求。一種縮減標注工作量的做法是,先將語音數據由已有的語音識別系統識別為文本,如果識別出的文本和原始文本一致,就認為該條標注通過質檢。
然而,人類語言博大精深,不同專業領域的人甚至無法理解對方在說什么。當文本標注庫中的內容是關于一些特定的細分領域時,用一個規范的通用語言模型來進行語音識別,識別效果會大打折扣,也就會出現真實標注正確而識別錯誤的情況,無法給標注質檢工作提供有效參考。
發明內容
本發明的目的在于提供一種特定領域語言模型的生成方法。
為實現上述目的,本發明提供如下各種技術方案。
一種特定領域語言模型生成方法,包括:a)、基于第一文本集建立第一語言模型;b)、基于第一語言模型來進行特定領域的語料擴展,以獲得第二文本集;c)、基于第二文本集建立第二語言模型;以及d)、針對第一文本集和第二文本集的重合詞元,將重合詞元在第一語言模型上的詞概率與其在第二語言模型上的詞概率進行插值運算,以建立第三語言模型。
可選地,步驟b)具體包括:利用第一語言模型分別計算第一文本集中的各句子的困惑度;從困惑度不低于困惑度閾值的句子中提取出至少一條專業詞匯;利用專業詞匯來進行特定領域的語料擴展。
可選地,步驟d)具體包括:基于重合詞元在第一語言模型上的詞概率與其在第二語言模型上的詞概率進行線性插值;其中,線性插值的插值因子至少基于如下項其中之一確定:驗證文本集中的至少一個句子在第三語言模型上的困惑度與在第一語言模型上的困惑度之間的差異;測試文本集中的至少一個句子在第一語言模型上的困惑度的統計信息。
本發明另外提供一種語音數據標注方法,包括:獲取語音數據集以及對應的標注文本集;基于標注文本集建立原始語言模型;基于原始語言模型來進行特定領域的語料擴展,以獲得特定領域文本集;基于特定領域文本集建立特定領域語言模型;以及針對標注文本集和特定領域文本集的重合詞元,將重合詞元在原始語言模型上的詞概率與其在特定領域語言模型上的詞概率進行插值運算,以建立融合語言模型;利用融合語言模型對語音數據集進行語音識別。
可選地,進行特定領域的語料擴展包括:利用原始語言模型分別計算標注文本集中的各句子的困惑度;從困惑度不低于困惑度閾值的句子中提取出至少一條專業詞匯;以專業詞匯進行句式擴展來得到特定領域文本集。
可選地,進行插值運算包括:基于重合詞元在原始語言模型上的詞概率與其在融合語言模型上的詞概率進行線性插值;其中,線性插值的插值因子至少基于如下項其中之一確定:驗證文本集中的至少一個句子在融合語言模型上的困惑度與在原始語言模型上的困惑度之間的差異;測試文本集中的至少一個句子在原始語言模型上的困惑度的統計信息。
本發明還提供一種語言模型生成系統,包括:第一模型建立單元,其基于第一文本集建立第一語言模型;語料擴展單元,其基于第一語言模型來進行特定領域的語料擴展,以獲得第二文本集;第二模型建立單元,其基于第二文本集建立第二語言模型;以及模型融合單元,其針對第一文本集和第二文本集的重合詞元,將重合詞元在第一語言模型上的詞概率與其在第二語言模型上的詞概率進行插值運算,以建立第三語言模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蔚來(安徽)控股有限公司,未經蔚來(安徽)控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811099240.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種葡萄樹種植使用的保濕器
- 下一篇:籠盤聯絞設備及成纜方法





