[發明專利]一種語音解碼的方法及裝置有效
| 申請號: | 201210226796.3 | 申請日: | 2012-06-30 |
| 公開(公告)號: | CN102737638A | 公開(公告)日: | 2012-10-17 |
| 發明(設計)人: | 錢勝 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L19/00 | 分類號: | G10L19/00 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 何青瓦;李慶波 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 解碼 方法 裝置 | ||
【技術領域】
本發明涉及語音識別技術,特別涉及一種語音解碼的方法及裝置。
【背景技術】
采用HMM(Hidden?Markov?Model,隱馬爾科夫模型)模型進行語音識別已經是語音識別中的主流技術。HMM是一個對語音信號的時間序列結構建立的統計模型,它將語音信號看作一個數學上的雙重隨機過程:一個是用具有有限狀態數的馬爾科夫鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與馬爾科夫鏈的每一個狀態相關聯的觀測序列的隨即過程。在采用HMM模型進行語音解碼時,隨著解碼過程的進行,解碼路徑的數量會以幾何級數進行增長,因此,為了減少計算量并加快解碼的速度,在進行語音解碼的解碼過程中,需要對解碼路徑進行裁剪,在現有技術中,路徑裁剪時僅考慮當前解碼路徑在解碼模型中的得分,這種方式在解碼中沒有考慮語音具有的短時平穩特征。
語音短時平穩特征指的是語音在很短的一個時間范圍內具有相對的穩定性,表現為在很短的一個時間范圍內,語音所處的狀態應該是一致的。而HMM模型是一個統計模型,該模型無法自動對頻繁進行狀態跳轉的路徑進行懲罰,從而有可能出現頻繁跳轉的解碼路徑得到的分值反倒大于其他解碼路徑,從而使得正確的解碼路徑過早被裁剪掉,影響了語音解碼的速度和精度。
【發明內容】
本發明所要解決的技術問題是提供一種語音解碼方法及裝置,以解決現有技術在進行語音解碼時速度慢、精度低的技術缺陷。
本發明為解決技術問題而采用的技術方案是提供一種語音解碼方法,包括:A.從待解碼的語音特征流中獲取當前語音特征幀;B.利用當前語音特征幀對當前的各條解碼路徑進行擴展;C.利用語音短時平穩特征從擴展后的各條解碼路徑中選取一條以上的解碼路徑作為當前的解碼路徑,并判斷待解碼的語音特征流是否已到達最后幀,如果是,則從當前的各條解碼路徑中確定最優解碼路徑作為對所述待解碼的語音特征流進行解碼的結果,否則將待解碼的語音特征流的下一幀作為當前語音特征幀,返回所述步驟B。
根據本發明之一優選實施例,所述步驟B具體包括:根據已知的語音特征幀之間的狀態跳轉關系,確定當前的各條解碼路徑中最后一個狀態節點代表的狀態至當前語音特征幀之間所有可能的狀態跳轉,其中一種可能的狀態跳轉對應由當前語音特征幀的一個狀態節點擴展而來的一條解碼路徑;根據聲學模型和語言模型確定擴展后的各條解碼路徑的得分。
根據本發明之一優選實施例,利用語音短時平穩特征從擴展后的各條解碼路徑中選取一條以上的解碼路徑作為當前的解碼路徑的步驟具體包括:從擴展后的各條解碼路徑中確定違背語音短時平穩特征的解碼路徑;降低所述違背語音短時平穩特征的解碼路徑的得分;根據各條解碼路徑的得分選取一條以上的解碼路徑作為當前的解碼路徑。
根據本發明之一優選實施例,確定違背語音短時平穩特征的解碼路徑的步驟具體包括:將擴展后的各條解碼路徑中相同狀態的連續節點數低于限值的解碼路徑作為違背語音短時平穩特征的解碼路徑。
根據本發明之一優選實施例,根據各條解碼路徑的得分選取一條以上的解碼路徑作為當前的解碼路徑的步驟具體包括:從各條解碼路徑中選取得分最高的N條解碼路徑作為當前的解碼路徑,其中N為自然數;或者,將各條解碼路徑中得分與最高分之間差值大于設定值的解碼路徑剔除并將剩余解碼路徑作為當前的解碼路徑。
根據本發明之一優選實施例,所述步驟C中確定最優解碼路徑的步驟具體包括:將當前的各條解碼路徑中得分最高的解碼路徑作為最優解碼路徑。
本發明還提供了一種語音解碼裝置,包括:接收單元,用于從待解碼的語音特征流中獲取當前語音特征幀;擴展單元,用于利用當前語音特征幀對當前的各條解碼路徑進行擴展;選取單元,用于利用語音短時平穩特征從擴展后的各條解碼路徑中選取一條以上的解碼路徑作為當前的解碼路徑,并觸發判斷單元運行;判斷單元,用于判斷待解碼的語音特征流是否已到達最后幀,如果是,則從當前的各條解碼路徑中確定最優解碼路徑作為對所述待解碼的語音特征流進行解碼的結果,否則將待解碼的語音特征流的下一幀作為當前語音特征幀并觸發所述擴展單元運行。
根據本發明之一優選實施例,所述擴展單元具體包括:路徑擴展子單元,用于根據已知的語音特征幀之間的狀態跳轉關系,確定當前的各條解碼路徑中最后一個狀態節點代表的狀態至當前語音特征幀之間所有可能的狀態跳轉,其中一種可能的狀態跳轉對應當前語音特征幀的一個狀態節點擴展而來的一條解碼路徑;得分確定子單元,用于根據聲學模型和語言模型確定擴展后的各條解碼路徑的得分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210226796.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種聚氨酯合成革粘合裝置
- 下一篇:一種再生革壓榨裝置





