[發(fā)明專利]一種語音識別的方法和裝置有效

申請?zhí)枺?/td>	201210314129.0	申請日：	2012-08-29
公開（公告）號：	CN103680500B	公開（公告）日：	2018-10-16
發(fā)明（設計）人：	錢勝	申請（專利權）人：	北京百度網(wǎng)訊科技有限公司
主分類號：	G10L15/14	分類號：	G10L15/14
代理公司：	北京鴻德海業(yè)知識產(chǎn)權代理事務所(普通合伙) 11412	代理人：	袁媛
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音識別方法裝置
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了一種語音識別的方法和裝置，其中方法包括：訓練解碼網(wǎng)絡時采用上下文相關的隱馬爾科夫模型（HMM），在解碼網(wǎng)絡中的詞尾增加靜音（sil）模型并調(diào)整該sil模型前后HMM狀態(tài)的聲學上下文；利用所述解碼網(wǎng)絡獲得待識別語音的HMM狀態(tài)跳轉(zhuǎn)序列。更進一步地，在解碼網(wǎng)絡中語言模型的末尾增加一條到該語言模型頭部的跳轉(zhuǎn)來模擬句間停頓對語言模型上下文信息的影響。通過本發(fā)明能夠提高語音識別的效果。

【技術領域】

本發(fā)明涉及計算機應用技術領域，特別涉及一種語音識別的方法和裝置。

【背景技術】

語音識別技術是讓機器通過識別和理解過程將語音信號轉(zhuǎn)變?yōu)橄鄳谋净蛎畹募夹g，其中隱馬爾科夫模型（HMM）技術的成熟和不斷完善成為語音識別的主流方法。

HMM是對語音信號的時間序列結構建立統(tǒng)計模型，將之看做一個數(shù)學上的雙重隨機過程：一個是用具有有限狀態(tài)數(shù)的馬爾科夫鏈來模擬語音信號統(tǒng)計特性變化的隱含的隨機過程，另一個是與馬爾科夫鏈的每一個狀態(tài)相關聯(lián)的觀測序列的隨機過程。前者通過后者表現(xiàn)出來，但前者的具體參數(shù)是不可測的。人的言語過程實際上就是一個雙重隨機過程，語音信號本身是一個可觀測的時變序列，HMM合理地模仿了這一過程，是較為理想的一種語音模型。

基于HMM方法的語音識別原理是通過在所有可能的HMM狀態(tài)跳轉(zhuǎn)序列中找出最優(yōu)的跳轉(zhuǎn)序列，將其對應的文本信息作為識別結果。而解碼網(wǎng)絡描述所有可能的HMM狀態(tài)跳轉(zhuǎn)，語音識別就是在解碼網(wǎng)絡上搜尋最佳跳轉(zhuǎn)序列的過程，識別的結果一定是解碼網(wǎng)絡所能描述的所有可能中的一種。識別過程中HMM狀態(tài)跳轉(zhuǎn)的序列被稱為路徑。以只識別“中”和“國”的簡單孤立詞為例，其解碼網(wǎng)絡如圖1所示，其中“中”對應的HMM狀態(tài)跳轉(zhuǎn)序列為“zh”、“ong”，“國”對應的HMM狀態(tài)跳轉(zhuǎn)序列為“g”、“uo”，<s>和</s>分別是語言模型的開始和結束符號。

在人們說話過程中，說話人往往因思考、遲疑、咳嗽、驚訝、口吃等原因都會產(chǎn)生停頓，在語音信號中停頓會體現(xiàn)為一段時間沒有聲音，或者有聲音但不是語音聲，而是咳嗽或噴嚏聲。停頓在語音中分為句中停頓和句間停頓，顧名思義，句中停頓指人在說一句話的過程中的停頓，句間停頓指人在說多句話時，句與句之間的停頓。

在現(xiàn)有的語音識別中，一般認為只在語音的頭尾有靜音，而語音中間是沒有停頓的，這樣在語音中有停頓時會把停頓錯誤識別為有語義的詞，而且更嚴重的是，由于語音識別是個根據(jù)當前狀態(tài)向后擴展的過程，這種錯誤會直接影響到后面的識別過程，導致識別結果錯上加錯。解決這個問題的關鍵是正確的識別出語音中的停頓，使得后續(xù)的識別過程在正確的結果下向后進行；而正確識別出語音中停頓的前提是在解碼網(wǎng)絡中正確的描述所有的HMM狀態(tài)跳轉(zhuǎn)的可能。

現(xiàn)有常用的方法是在解碼網(wǎng)絡中的詞尾增加靜音模型（sil模型），這樣在識別過程中遇到停頓時，sil模型會與其他有語義的模型競爭，如果sil模型占優(yōu)勢，則識別為停頓（又稱為被sil模型吸收）。圖2為在解碼網(wǎng)絡中增加sil模型的示意圖，圖中<s>和</s>分別是語言模型的開始和結束符號。

但在實際應用中，因為語音中的停頓會影響附近的聲學發(fā)音，停頓時間越長影響越大，另外，對于句間停頓語言模型的上下文信息會發(fā)生突變，現(xiàn)有技術中的識別方法并不能解決這些問題，識別效果有限。

【發(fā)明內(nèi)容】

本發(fā)明提供了一種語音識別的方法和裝置，以便于提高語音識別的效果。

具體技術方案如下：

一種語音識別的方法，該方法包括：

訓練解碼網(wǎng)絡時采用上下文相關的隱馬爾科夫模型HMM，在解碼網(wǎng)絡中的詞尾增加靜音sil模型并調(diào)整該sil模型前后HMM狀態(tài)的聲學上下文；

利用所述解碼網(wǎng)絡獲得待識別語音的HMM狀態(tài)跳轉(zhuǎn)序列。

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京百度網(wǎng)訊科技有限公司，未經(jīng)北京百度網(wǎng)訊科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210314129.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。