[發明專利]可快速更新語言模型的大規模語音識別方法及系統有效
| 申請號: | 201911420724.0 | 申請日: | 2019-12-31 |
| 公開(公告)號: | CN111063337B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 陸沁 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/06;G10L15/08;G10L15/26 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 快速 更新 語言 模型 大規模 語音 識別 方法 系統 | ||
本發明公開一種可快速更新語言模型的大規模語音識別方法及系統方法包括:獲取多個說法結構語句。獲取多個類別所對應的詞條。擴展語音文本。從說話結構語句中多個類別詞條中,選取多個待更新類別詞條。訓練各類新詞條的詞條語言模型。更新詞條。根據所述說法語言模型及所述詞條語言模型結合聲學模型編譯成解碼網絡。獲取識別結果。本發明結合傳統語言模型及class?based語言模型,提供了一種可以快速更新的大規模語音識別系統,能夠在幾分鐘內,僅耗費幾MB的計算、儲存空間的情況下,訓練出一個包含最新詞匯的語言模型,提高新詞匯的識別率,同時保證原有大詞匯的識別率。
技術領域
本發明屬于語音識別技術領域,尤其涉及一種可快速更新語言模型的大規模語音識別方法及系統。
背景技術
隨著語音識別技術的廣泛應用,越來越多的智能設備具備語音識別功能,越來越多的用戶使用語音識別功能來實現與設備的交互。這些智能設備功能豐富,支持的對話方式及領域多樣,因而需要一個涵蓋非常大詞匯的連續語音識別系統。
為滿足這類語音識別需求,傳統的語音識別系統具體實現方式如圖1,首先設計用戶說法,并且獲取用戶詞條,然后將用戶說法和用戶詞條進行文本擴展,再用擴展后的文本訓練語言模型,最后將訓練好的語言模型與聲學模型結合,進行語音識別。
一個功能豐富的智能設備涵蓋的用戶說法及用戶詞條量都非常大,從而擴展出來的文本通常會達到幾百GB甚至幾TB。大量的訓練文本,導致訓練語言模型所需要的時間、計算空間、存儲空間都非常大,因而這種大規模語言模型的更新周期通常是幾周甚至更長。而用戶往往會說一些近期最新最熱門的詞匯,幾周甚至更長更新周期的語言模型無法準確識別最新詞匯,若頻繁更新語言模型,則成本過高。
發明內容
本發明實施例提供一種可快速更新語言模型的大規模語音識別方法及系統,用于至少解決上述技術問題之一。
第一方面,本發明實施例提供一種可快速更新語言模型的大規模語音識別方法,包括:
步驟S101,獲取多個說法結構語句。每個說法結構語句中包括多個類別詞條。
步驟S102,獲取多個類別所對應的詞條。
步驟S103,根據說法結構語句及多個類別的詞條擴展為完整的擴展語音文本。
步驟S104,從步驟S101中的說話結構語句中多個類別詞條中,選取多個待更新類別詞條。將含有待更新類別詞條的說法與擴展語音文本合并,組成訓練語料。訓練訓練預料獲取說法語言模型。
步驟S105,從步驟S101中的說話結構語句中選取頻繁更新的類別詞條為新詞條的類別。按設定時間或設定時間間隔從預設的詞條數據庫中獲取與新詞條的類別對應的新詞條。將新詞條加入對應的詞條文本中,并分別訓練各類新詞條的詞條語言模型。
步驟S106,從當前采集語句中獲取當前更新詞條。將當前更新詞條對應加入多個類別的詞條中,通過步驟S103的步驟擴展為當前語音文本。將當前語音文本與當前采集語句合并,組成新的當前訓練文本。訓練當前訓練文本得到當前說法語言模型。通過當前更新詞條更新新詞條,將新詞條從預設的詞條數據庫中移除。
步驟S107,根據所述說法語言模型及所述詞條語言模型結合聲學模型編譯成解碼網絡。
步驟S108,通過解碼網絡識別當前待識別語音,獲取識別結果。
基于步驟S101中還包括:采集多段用戶語音。識別多段用戶語音獲取多個說法結構語句。
基于步驟S105中還包括:獲取詞條數據庫。
基于步驟S107中還包括,根據所述說法語言模型及所述詞條語言模型結合聲學模型通過支持class-based解碼的解碼器編譯成解碼網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911420724.0/2.html,轉載請聲明來源鉆瓜專利網。





