[發明專利]語音識別系統的端點檢測方法及系統有效
| 申請號: | 201510413643.3 | 申請日: | 2015-07-14 |
| 公開(公告)號: | CN105118502B | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 王凱夫;彭守業;牛建偉;賈磊 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L15/02;G10L15/16;G10L21/0208 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙)11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 系統 端點 檢測 方法 | ||
技術領域
本發明涉及語音識別技術領域,特別涉及一種語音識別系統的端點檢測方法及系統。
背景技術
隨著人機信息交互技術的發展,語音識別技術顯示出其重要性。在語音識別系統中,語音端點檢測是語音識別中的關鍵技術之一。語音端點檢測是指在連續聲音信號中找出語音部分的起始點和終止點。端點檢測準確與否,會直接影響到語音識別系統的性能。具體地,語音端點檢測的檢測結果對后端的聲學模型、解碼器、語言模型的識別效果,都有很大的影響,如果端點切分存儲錯誤,則會導致漏識別或者誤識別等情況的發生,進而可導致語音識別結果不準確。
目前,傳統的語音端點檢測方法主要是獲取時域或頻域能量,并與給定的閾值進行比較,從而判斷出語音的起始點和終止點。端點檢測的一般過程為:1、分幀提取語音特征,計算時域或頻域能量;2、將能量值與閾值比較,判斷語音起始點;3、若找到語音起始點,則繼續向后取能量值與閾值比較,判斷語音是否結束;4、若找到語音結束點,則終止查找,返回結果。
然而,在實現本發明的過程中發明人發現上述語音端點檢測方法少存在以下問題:(1)上述語音端點檢測方法適用于平穩噪聲,且高信噪比的環境,但在非平穩噪聲、較低信噪比環境下,上述語音端點檢測方法的檢測效果不好,所檢測的語音端點的準確率較低;(2)對于不同信噪比下的語音信號,很難選取合適的閾值,無法保證安靜環境下的檢測精度和噪聲環境下的檢測精度。
發明內容
本發明旨在至少在一定程度上解決相關技術中的技術問題之一。為此,本發明的第一個目的在于提出一種語音識別系統的端點檢測方法,該方法提供了一種通過聲學識別結果對初步識別出的語音端點進行調整的端點檢測方式,準確定位了待識別語音信號的語音端點,提高了語音端點檢測的準確率,進而可提高語音識別的準確性,提高語音識別系統的性能。
本發明的第二個目的在于提出一種語音識別系統的端點檢測系統。
為實現上述目的,本發明第一方面實施例的語音識別系統的端點檢測方法,包括:基于長短時記憶神經網絡訓練聲學識別模型;通過預設語音端點檢測算法初步識別出待識別語音信號的語音端點;分幀提取所述待識別語音信號的語音特征信息,并將所述語音特征信息輸入所述聲學識別模型,以使所述聲學識別模型根據所述語音特征信息生成所述待識別語音信號的聲學識別結果;以及根據所述聲學識別結果對初步識別出的語音端點進行調整。
本發明實施例的語音識別系統的端點檢測方法,首先基于長短時記憶神經網絡訓練聲學識別模型,并通過預設語音端點檢測算法初步識別出待識別語音信號的語音端點,然后分幀提取待識別語音信號的語音特征信息,并將語音特征信息輸入聲學識別模型,以使聲學識別模型根據語音特征信息生成待識別語音信號的聲學識別結果,以及根據聲學識別結果對初步識別出的語音端點進行調整。由此,提供了一種通過聲學識別結果對初步識別出的語音端點進行調整的端點檢測方式,準確定位了待識別語音信號的語音端點,提高了語音端點檢測的準確率,進而可提高語音識別的準確性,提高語音識別系統的性能。
為實現上述目的,本發明第二方面實施例的語音識別系統的端點檢測系統,包括:訓練模塊,用于基于長短時記憶神經網絡訓練聲學識別模型;預處理模塊,用于通過預設語音端點檢測算法初步識別出待識別語音信號的語音端點;聲學識別模塊,用于分幀提取所述待識別語音信號的語音特征信息,并將所述語音特征信息輸入所述聲學識別模型,以使所述聲學識別模型根據所述語音特征信息生成所述待識別語音信號的聲學識別結果;以及調整模塊,用于根據所述聲學識別結果對初步識別出的語音端點進行調整。
本發明實施例的語音識別系統的端點檢測系統,訓練模塊基于長短時記憶神經網絡訓練聲學識別模型,預處理模塊通過預設語音端點檢測算法初步識別出待識別語音信號的語音端點,然后聲學識別模塊分幀提取待識別語音信號的語音特征信息,并將語音特征信息輸入聲學識別模型,以使聲學識別模型根據語音特征信息生成待識別語音信號的聲學識別結果,以及調整模塊根據聲學識別結果對初步識別出的語音端點進行調整。由此,提供了一種通過聲學識別結果對初步識別出的語音端點進行調整的端點檢測方式,準確定位了待識別語音信號的語音端點,提高了語音端點檢測的準確率,進而可提高語音識別的準確性,提高語音識別系統的性能。
附圖說明
圖1是根據本發明一個實施例的語音識別系統的端點檢測方法的流程圖。
圖2是基于長短時記憶神經網絡訓練聲學識別模型的示意圖。
圖3是根據本發明一個實施例的初步識別出待識別語音信號的語音端點的流程圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510413643.3/2.html,轉載請聲明來源鉆瓜專利網。





