[發明專利]一種基于混合聲學模型的語音識別系統及方法有效
| 申請號: | 201711059592.4 | 申請日: | 2017-11-01 |
| 公開(公告)號: | CN109754790B | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 徐及;程高峰;潘接林;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科信利技術有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/16 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;武玥 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 聲學 模型 語音 識別 系統 方法 | ||
1.一種基于混合聲學模型的語音識別方法,基于一種基于混合聲學模型的語音識別系統實現,所述系統包括:信號處理及特征提取模塊、發音詞典、語言模型和解碼器;其特征在于,所述系統還包括:混合聲學模型;所述混合聲學模型包括:前端的卷積神經網絡和后端的時間延遲及長短時記憶混合神經網絡;所述卷積神經網絡作為一個特征提取模塊放置在時間延遲及長短時記憶混合神經網絡之前;所述卷積神經網絡輸出的特征和待識別語音的梅爾頻率倒譜系數特征進行拼接,一起作為后端時間延遲及長短時記憶混合神經網絡的輸入特征;所述卷積神經網絡為兩層;
所述方法包括:
步驟1)建立訓練集,基于訓練集訓練所述語音識別系統的混合聲學模型;
步驟2)提取待識別語音的梅爾頻率倒譜系數特征以及說話人特征;
步驟3)利用訓練好的聲學模型的卷積神經網絡對待識別語音的梅爾頻率倒譜系數特進行卷積處理;
步驟4)將卷積神經網絡輸出作為新的特征,和待識別語音的梅爾頻率倒譜系數特征以及說話人特征進行拼接,形成混合特征,作為時間延遲及長短時記憶混合神經網絡的輸入;
步驟5)所述時間延遲和長短時記憶混合神經網絡對混合特征進行處理,輸出語音的特征的后驗概率,用于解碼,得到識別出的語音。
2.根據權利要求1所述的基于混合聲學模型的語音識別方法,其特征在于,在所述步驟4)之前還包括:
對卷積神經網絡輸出的特征降維到1024維,同時對待識別語音的梅爾頻率倒譜系數特征和說話人特征拼接之后的特征進行整體維度轉換,轉換到512維。
3.根據權利要求2所述的基于混合聲學模型的語音識別方法,其特征在于,所述步驟1)具體包括:
步驟101)建立訓練集;
所述訓練集包括若干條語音、每條語音的梅爾頻率倒譜系數特征以及說話人特征;
步驟102)利用卷積神經網絡對每條語音的梅爾頻率倒譜系數特征進行卷積處理;
步驟103)將卷積神經網絡輸出作為新的特征,和對應語音的梅爾頻率倒譜系數特征以及說話人特征進行拼接,形成混合特征,作為時間延遲及長短時記憶混合神經網絡的輸入;
步驟104)所述時間延遲和長短時記憶混合神經網絡對混合特征進行處理,輸出語音的特征的后驗概率,用于解碼,得到識別出的語音,與原始語音進行比較后,進行前向反饋,最終得到訓練好的混合聲學模型。
4.根據權利要求3所述的基于混合聲學模型的語音識別方法,其特征在于,在所述步驟103)之前還包括:
對卷積神經網絡輸出的特征降維到1024維,同時對梅爾頻率倒譜系數特征和說話人特征拼接之后的特征進行整體維度轉換到512維。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司,未經中國科學院聲學研究所;北京中科信利技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711059592.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音音素的識別方法及裝置
- 下一篇:聲控方法及系統





