[發明專利]一種基于雙層聲學模型的快速語音識別方法在審
| 申請號: | 202011095528.3 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112233659A | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 呂勇 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/08;G10L15/26;G10L19/00;G10L25/24 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 王恒靜 |
| 地址: | 210024 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 雙層 聲學 模型 快速 語音 識別 方法 | ||
1.一種基于雙層聲學模型的快速語音識別方法,其特征在于,包括訓練階段和識別階段,其中,訓練階段包括:
(1)對訓練語音文本進行預處理;
(2)用共振峰聚類的方法將語音識別系統的全部音節劃分為若干類;
(3)用每一類的所有音節的訓練語音進行模型訓練,生成類聲學模型;
(4)用每個音節的訓練語音進行模型訓練,生成該音節的聲學模型;
識別階段包括:
(5)對測試語音文本進行預處理;
(6)用類聲學模型對當前測試語音的特征向量進行類解碼,將其歸為某一類語音;
(7)根據類解碼得到的類信息,調用該類所有音節的聲學模型,對當前語音的特征向量進行音節解碼,得到識別結果。
2.如權利要求1所述的基于雙層聲學模型的快速語音識別方法,其特征在于,所述步驟(1)中對訓練語音文本進行預處理包括加窗,分幀和提取美爾頻率倒譜系數,作為語音的特征向量。
設一幀語音信號的幅度譜為X(k),則美爾頻率倒譜系數對應向量c的第l個元素可以表示為
其中,N0是幀長;M0是Mel濾波器組中濾波器的個數;Wm(k)是Mel濾波器組中第m個濾波器在頻率k處的加權因子;L是MFCC向量c的維數。
3.如權利要求1所述的基于雙層聲學模型的快速語音識別方法,其特征在于,所述步驟(2)包括:
首先對每個音節的訓練語音提取共振峰,并取平均值,得到該音節的共振峰向量;然后,對全部音節的共振峰向量進行聚類,將N個音節劃分為M類,每一類的音節個數分別為N1,N2,…,NM,它們滿足:
4.如權利要求3所述的基于雙層聲學模型的快速語音識別方法,其特征在于,所述步驟(3)中,對每一類音節,用這些音節的全部訓練語音訓練生成該類的高斯混合模型,第m類的高斯混合模型的輸出概率可以表示為
其中,xt表示第t幀語音的MFCC向量;cmk、μx,mk和Σx,mk分別表示第m類的GMM中第k個高斯混合單元的混合系數、均值向量和協方差矩陣;D表示MFCC向量的維數;Nm表示第m類的GMM的高斯混合數。
5.如權利要求3所述的基于雙層聲學模型的快速語音識別方法,其特征在于,所述步驟(4)中,設語音識別系統有N個音節,在訓練階段用每個音節的全部訓練語音生成該音節的連續密度隱馬爾可夫模型,得到N個連續密度隱馬爾可夫模型,這N個連續密度隱馬爾可夫模型組成音節模型,用于測試階段的音節解碼,每個連續密度隱馬爾可夫模型由6個左右結構的狀態組成,每個狀態用一個高斯混合數為4的高斯混合模型表示,第n個音節的連續密度隱馬爾可夫模型的第i個狀態的概率密度函數可以表示為:
其中,xt表示第t幀語音的MFCC向量;cn,im、μn,im和Σn,im分別表示第n個HMM的第i個狀態中第m個高斯混合單元的混合系數、均值向量和協方差矩陣;D表示特征向量的維數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011095528.3/1.html,轉載請聲明來源鉆瓜專利網。





