[發(fā)明專利]一種語音識別的方法和裝置有效
| 申請?zhí)枺?/td> | 201210314129.0 | 申請日: | 2012-08-29 |
| 公開(公告)號: | CN103680500B | 公開(公告)日: | 2018-10-16 |
| 發(fā)明(設計)人: | 錢勝 | 申請(專利權)人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14 |
| 代理公司: | 北京鴻德海業(yè)知識產(chǎn)權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 方法 裝置 | ||
本發(fā)明提供了一種語音識別的方法和裝置,其中方法包括:訓練解碼網(wǎng)絡時采用上下文相關的隱馬爾科夫模型(HMM),在解碼網(wǎng)絡中的詞尾增加靜音(sil)模型并調(diào)整該sil模型前后HMM狀態(tài)的聲學上下文;利用所述解碼網(wǎng)絡獲得待識別語音的HMM狀態(tài)跳轉(zhuǎn)序列。更進一步地,在解碼網(wǎng)絡中語言模型的末尾增加一條到該語言模型頭部的跳轉(zhuǎn)來模擬句間停頓對語言模型上下文信息的影響。通過本發(fā)明能夠提高語音識別的效果。
【技術領域】
本發(fā)明涉及計算機應用技術領域,特別涉及一種語音識別的方法和裝置。
【背景技術】
語音識別技術是讓機器通過識別和理解過程將語音信號轉(zhuǎn)變?yōu)橄鄳谋净蛎畹募夹g,其中隱馬爾科夫模型(HMM)技術的成熟和不斷完善成為語音識別的主流方法。
HMM是對語音信號的時間序列結構建立統(tǒng)計模型,將之看做一個數(shù)學上的雙重隨機過程:一個是用具有有限狀態(tài)數(shù)的馬爾科夫鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程,另一個是與馬爾科夫鏈的每一個狀態(tài)相關聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,HMM合理地模仿了這一過程,是較為理想的一種語音模型。
基于HMM方法的語音識別原理是通過在所有可能的HMM狀態(tài)跳轉(zhuǎn)序列中找出最優(yōu)的跳轉(zhuǎn)序列,將其對應的文本信息作為識別結果。而解碼網(wǎng)絡描述所有可能的HMM狀態(tài)跳轉(zhuǎn),語音識別就是在解碼網(wǎng)絡上搜尋最佳跳轉(zhuǎn)序列的過程,識別的結果一定是解碼網(wǎng)絡所能描述的所有可能中的一種。識別過程中HMM狀態(tài)跳轉(zhuǎn)的序列被稱為路徑。以只識別“中”和“國”的簡單孤立詞為例,其解碼網(wǎng)絡如圖1所示,其中“中”對應的HMM狀態(tài)跳轉(zhuǎn)序列為“zh”、“ong”,“國”對應的HMM狀態(tài)跳轉(zhuǎn)序列為“g”、“uo”,<s>和</s>分別是語言模型的開始和結束符號。
在人們說話過程中,說話人往往因思考、遲疑、咳嗽、驚訝、口吃等原因都會產(chǎn)生停頓,在語音信號中停頓會體現(xiàn)為一段時間沒有聲音,或者有聲音但不是語音聲,而是咳嗽或噴嚏聲。停頓在語音中分為句中停頓和句間停頓,顧名思義,句中停頓指人在說一句話的過程中的停頓,句間停頓指人在說多句話時,句與句之間的停頓。
在現(xiàn)有的語音識別中,一般認為只在語音的頭尾有靜音,而語音中間是沒有停頓的,這樣在語音中有停頓時會把停頓錯誤識別為有語義的詞,而且更嚴重的是,由于語音識別是個根據(jù)當前狀態(tài)向后擴展的過程,這種錯誤會直接影響到后面的識別過程,導致識別結果錯上加錯。解決這個問題的關鍵是正確的識別出語音中的停頓,使得后續(xù)的識別過程在正確的結果下向后進行;而正確識別出語音中停頓的前提是在解碼網(wǎng)絡中正確的描述所有的HMM狀態(tài)跳轉(zhuǎn)的可能。
現(xiàn)有常用的方法是在解碼網(wǎng)絡中的詞尾增加靜音模型(sil模型),這樣在識別過程中遇到停頓時,sil模型會與其他有語義的模型競爭,如果sil模型占優(yōu)勢,則識別為停頓(又稱為被sil模型吸收)。圖2為在解碼網(wǎng)絡中增加sil模型的示意圖,圖中<s>和</s>分別是語言模型的開始和結束符號。
但在實際應用中,因為語音中的停頓會影響附近的聲學發(fā)音,停頓時間越長影響越大,另外,對于句間停頓語言模型的上下文信息會發(fā)生突變,現(xiàn)有技術中的識別方法并不能解決這些問題,識別效果有限。
【發(fā)明內(nèi)容】
本發(fā)明提供了一種語音識別的方法和裝置,以便于提高語音識別的效果。
具體技術方案如下:
一種語音識別的方法,該方法包括:
訓練解碼網(wǎng)絡時采用上下文相關的隱馬爾科夫模型HMM,在解碼網(wǎng)絡中的詞尾增加靜音sil模型并調(diào)整該sil模型前后HMM狀態(tài)的聲學上下文;
利用所述解碼網(wǎng)絡獲得待識別語音的HMM狀態(tài)跳轉(zhuǎn)序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210314129.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:具有掩埋位線的半導體器件及其制造方法
- 下一篇:液體噴出裝置





