[發明專利]一種語音識別模型的訓練方法和裝置在審
| 申請號: | 201910193085.2 | 申請日: | 2019-03-14 |
| 公開(公告)號: | CN111768761A | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 穆玉芝;王虎 | 申請(專利權)人: | 京東數字科技控股有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/22;G10L15/26;G10L25/45 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 謝安昆;宋志強 |
| 地址: | 100176 北京市經濟技*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 模型 訓練 方法 裝置 | ||
本發明提供了一種語音識別模型的訓練方法和裝置,該方法中,按照各建模項在語音樣本中的出現頻率從高到低排序構成頻率表,利用滑動窗口在頻率表上滑動,對每個滑動窗口進行適用于第一訓練階段或第二訓練階段的判斷,將語音識別模型的訓練過程分為兩個訓練階段,在第一訓練階段以高頻建模項為學習目標實施簡單的語音識別模型訓練,在第二訓練階段以低頻建模項為學習目標,對出現頻率較低的建模項通過重用相關低頻語音數據來增加被學習的次數。本發明能夠在參與訓練的語音數據不充足或語音數據類別不均衡的情況下,提高訓練得到的語音識別模型的語音識別準確率。
技術領域
本發明涉及語音識別技術領域,特別涉及一種語音識別模型的訓練方法和裝置。
背景技術
語音識別是當前人工智能研究的熱點,其涉及的場景包括智能家居,智能問答以及智能客服等領域。隨著人們對便捷生活訴求的增加,語音識別技術正不斷地發展和完善。例如LAS[1]和RNN-Transducer[2]等端到端方法均在語音識別領域取得了較高的準確率。另外,針對語音質量較差的語料還引入了課程學習等方法,使得在噪聲污染嚴重的語音中取得較高的識別準確率和泛化性能。
上述方法可以將輸入的語音特征直接轉化為期望的文本,減少了傳統方法中各個模塊建模的復雜度,同時在大量數據的支撐下取得很高的準確率和泛化性。然而,上述方法是以充足的樣本數據的基礎的,如果樣本數據不充足或語音數據類別不均衡時,則存在識別準確率低的問題。
發明內容
有鑒于此,本發明的目的在于提供一種語音識別模型的訓練方法和裝置,能夠在參與訓練的語音數據不充足或語音數據類別不均衡的情況下,提高訓練得到的語音識別模型的語音識別準確率。
為了達到上述目的,本發明提供了如下技術方案:
一種語音識別模型的訓練方法,預先基于設定的建模粒度配置建模字典,建模字典中包括該建模粒度下的所有建模項;該方法包括:
獲取多條語音數據及每條語音數據的語音文本;
提取每條語音數據的聲音特征信息,并根據所有語音數據的語音文本統計建模字典中每個建模項的出現頻率和權重,將所有建模項按照出現頻率從高到低排序構成頻率表;
利用滑動窗口在所述頻率表中按照預設步長滑動,并對滑動到的每個滑動窗口進行適用于第一訓練階段或第二訓練階段的判斷;
如果該滑動窗口適用于第一訓練階段,則根據該滑動窗口中所有建模項的權重確定一權重參數,將所有語音數據的聲音特征信息作為訓練樣本,執行基于該權重參數的語音識別模型訓練;
如果該滑動窗口適用于第二訓練階段,則根據該滑動窗口確定低頻語音數據及其重用次數,根據低頻語音數據的重用次數調整建模字典中所有建模項的權重,根據該滑動窗口中所有建模項調整后的權重確定一權重參數,將所有語音數據的聲音特征信息作為訓練樣本,根據低頻語音數據的重用次數執行基于該權重參數的語音識別模型訓練。
一種語音識別模型的訓練裝置,包括:
配置單元,用于預先基于設定的建模粒度配置建模字典,建模字典中包括該建模粒度下的所有建模項;
獲取單元,用于獲取多條語音數據及每條語音數據的語音文本;
提取單元,用于提取每條語音數據的聲音特征信息;
統計單元,用于根據所有語音數據的語音文本統計建模字典中每個建模項的出現頻率和權重,將所有建模項按照出現頻率從高到低排序構成頻率表;
判斷單元,用于利用滑動窗口在所述頻率表中按照預設步長滑動,并對滑動到的每個滑動窗口進行適用于第一訓練階段或第二訓練階段的判斷;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股有限公司,未經京東數字科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910193085.2/2.html,轉載請聲明來源鉆瓜專利網。





