[發明專利]一種基于先驗概率的聲學解碼方法在審
| 申請號: | 202110233078.8 | 申請日: | 2021-03-03 |
| 公開(公告)號: | CN113096650A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 呂勇 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/06 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 王恒靜 |
| 地址: | 210024 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 先驗 概率 聲學 解碼 方法 | ||
1.一種基于先驗概率的聲學解碼方法,其特征在于,包括如下步驟:
(1)在訓練階段,將訓練語音文本中的所有字都用音節代替,得到音節序列;
(2)統計訓練語音文本音節序列中每個音節向其他音節轉移的概率,得到音節上下文模型;
(3)用每個音節的全部訓練語音進行模型訓練,得到該音節的隱馬爾可夫模型,所有音節的隱馬爾可夫模型組成語音識別系統的聲學模型;
(4)在識別階段,用所述每個聲學模型對當前語音特征向量計算輸出概率,并將輸出概率從大到小排序,存儲前若干個概率值;
(5)讀取上一個語音的聲學模型輸出概率值,若最大值遠大于其他值,則用上一個語音的音節轉移到每個音節的先驗概率對聲學模型的輸出概率進行加權,并將加權概率最大的聲學模型對應的音節作為當前語音聲學解碼的結果;否則,
若上一個語音的聲學模型輸出概率的最大值與后面的幾個值比較接近,則不用音節轉移的先驗概率進行加權,直接用輸出概率最大的聲學模型對應的音節作為當前語音聲學解碼的結果。
2.如權利要求1所述的基于先驗概率的聲學解碼方法,其特征在于,所述步驟(2)中,具體包括統計訓練語音文本音節序列中每個音節向其他音節轉移的先驗概率,設音節A在訓練語音中出現N次,其中,設音節W1在訓練語音中出現N次,其中,有M次下一個音節是音節W2,則音節W1向音節W2轉移的先驗概率為所有音節轉移的先驗概率構成所述音節上下文模型。
3.如權利要求1所述的基于先驗概率的聲學解碼方法,其特征在于,所述步驟(3)用每個音節的全部訓練語音進行模型訓練之前先對訓練語音進行預處理,包括加窗、分幀和快速傅里葉變換,然后提取訓練語音和測試語音的美爾頻率倒譜系數,將所述美爾頓率倒譜系數作為訓練語音的特征向量。
4.如權利要求1所述的基于先驗概率的聲學解碼方法,其特征在于,所述隱馬爾可夫模型第i個狀態的概率密度函數表示為:
其中,ot表示第t幀MFCC特征向量,cim、μim和Σim分別表示第i個狀態的第m個高斯單元的混合系數、均值向量和協方差矩陣,M表示每個狀態的高斯混合數,D表示特征向量的維數。
5.如權利要求1所述的基于先驗概率的聲學解碼方法,其特征在于,所述步驟(5)具體包括:
(51)用每個音節的隱馬爾可夫模型對當前測試語音的特征向量計算輸出概率,并對所述輸出概率取對數,得到每個隱馬爾可夫模型的似然值Lj,j=0,1,2…N-1,其中,N是音節的數量;
(52)將似然值從大到小排序,存儲前Q個音節的似然值,其中,Q≥2,對當前語音進行聲學解碼時,讀取上一個語音的隱馬爾可夫模型的輸出似然值;
(53)如果其最大值遠大于其他Q-1個值,則用音節轉移的先驗概率對隱馬爾可夫模型的輸出概率進行加權:
其中,Pij是上一個語音的識別結果;是加權后的輸出概率似然值;
否則,若上一個語音的隱馬爾可夫模型的輸出概率最大值與其他Q-1個值中的前幾個較大值比較接近,則令即不進行先驗概率加權,直接用HMM的輸出似然值進行聲學解碼;
(54)比較得到的所有的大小,用最大值對應的音節作為聲學解碼的識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110233078.8/1.html,轉載請聲明來源鉆瓜專利網。





