[發明專利]一種語音識別模型的訓練方法和裝置在審
| 申請號: | 201910193085.2 | 申請日: | 2019-03-14 |
| 公開(公告)號: | CN111768761A | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 穆玉芝;王虎 | 申請(專利權)人: | 京東數字科技控股有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/22;G10L15/26;G10L25/45 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 謝安昆;宋志強 |
| 地址: | 100176 北京市經濟技*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 模型 訓練 方法 裝置 | ||
1.一種語音識別模型的訓練方法,其特征在于,預先基于設定的建模粒度配置建模字典,建模字典中包括該建模粒度下的所有建模項;該方法包括:
獲取多條語音數據及每條語音數據的語音文本;
提取每條語音數據的聲音特征信息,并根據所有語音數據的語音文本統計建模字典中每個建模項的出現頻率和權重,將所有建模項按照出現頻率從高到低排序構成頻率表;
利用滑動窗口在所述頻率表中按照預設步長滑動,并對滑動到的每個滑動窗口進行適用于第一訓練階段或第二訓練階段的判斷;
如果該滑動窗口適用于第一訓練階段,則根據該滑動窗口中所有建模項的權重確定一權重參數,將所有語音數據的聲音特征信息作為訓練樣本,執行基于該權重參數的語音識別模型訓練;
如果該滑動窗口適用于第二訓練階段,則根據該滑動窗口確定低頻語音數據及其重用次數,根據低頻語音數據的重用次數調整建模字典中所有建模項的權重,根據該滑動窗口中所有建模項調整后的權重確定一權重參數,將所有語音數據的聲音特征信息作為訓練樣本,根據低頻語音數據的重用次數執行基于該權重參數的語音識別模型訓練。
2.根據權利要求1所述的方法,其特征在于,
根據所有語音數據的語音文本統計建模字典中每個建模項的出現頻率和權重的方法為:
對每個建模項,統計語音樣本中包含該建模項的語音數據的條數,將統計結果作為該建模項的出現頻率,并采用公式weight=n_sample/class_per_count計算該建模項的權重;其中,weight為該建模項的權重,n_sample為語音數據總條數,class_per_count為該建模項的出現頻率。
3.根據權利要求1所述的方法,其特征在于,
對滑動到的每個滑動窗口進行適用于第一訓練階段或第二訓練階段的判斷,包括:
統計包含該滑動窗口中至少一個建模項的語音數據的條數,計算統計結果與語音數據總條數的比值,如果該比值大于預設比例閾值,則確定該滑動窗口適用于第一訓練階段,否則,確定該滑動窗口適用于第二訓練階段。
4.根據權利要求3所述的方法,其特征在于,
根據該滑動窗口確定低頻語音數據的方法為:將包含該滑動窗口中的至少一個建模項的各語音數據確定為低頻語音數據,其它各語音數據則作為高頻語音數據。
6.根據權利要求5所述的方法,其特征在于,
根據該滑動窗口將所有語音數據劃分為低頻語音數據和高頻語音數據并確定低頻語音數據的重用次數之后,根據低頻語音數據的重用次數調整建模字典中所有建模項的權重的方法為:
對每個建模項,統計包含該建模項的語音數據條數,如果該建模項屬于該滑動窗口,則將包含該建模項的語音數據條數與低頻語音數據的重用次數的乘積作為該建模項的出現頻率,否則,將包含該建模項的語音數據條數作為該建模項的出現頻率;
采用公式weight’=(m_count+N×n_count)/class_per_count’計算該建模項調整后的權重;其中,weight’為該建模項調整后的權重,m_count為被劃分為高頻語音數據的語音數據條數,N為低頻語音數據的重用次數,n_count為被劃分為低頻語音數據的語音數據條數,class_per_count’為該建模項的出現頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股有限公司,未經京東數字科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910193085.2/1.html,轉載請聲明來源鉆瓜專利網。





