[發明專利]端點檢測方法以及使用該方法的系統無效
| 申請號: | 200910135606.5 | 申請日: | 2009-04-22 |
| 公開(公告)號: | CN101872616A | 公開(公告)日: | 2010-10-27 |
| 發明(設計)人: | 張之浩;劉昆;吳偉國 | 申請(專利權)人: | 索尼株式會社 |
| 主分類號: | G10L15/00 | 分類號: | G10L15/00;G10L15/04;G10L11/02 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 黃小臨 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 端點 檢測 方法 以及 使用 系統 | ||
技術領域
本發明涉及用于語音識別,說話人識別的方法和系統,具體而言涉及一種語音信號處理中的語音前端處理的方法和系統。更具體的說,涉及一種語音端點檢測方法以及使用這種方法的系統。
背景技術
如何從具有背景噪聲的聲音信號中將語音識別出來,首先要解決一個關鍵問題就是如何從聲音信號中將語音信號精確地檢測出來。本發明所提及的語音端點檢測就是要在一段輸入信號中將語音信號同其它信號分離開來,這是語音處理技術中的一個重要方面。
語音端點檢測的實現方法有很多,包括:基于統計模型的語音端點檢測以及基于特征的端點檢測。基于模型的語音端點檢測方法一般通過通噪聲和語音的統計進行建模,從而估計語音和非語音的存在與位置。基于特征的語音端點檢測方法一般利用信號的能量、過零率、倒譜等根據語音與噪聲表現出來不同的特征來進行判斷。
然而,基于模型的語音端點檢測方法基本上針對特定噪聲環境,其在面對具有變化的噪聲背景的語音信號時,其魯棒性較差。
基于特征的語音端點檢測方法根據所采用的特征不同包括:基于時域能量的語音端點檢測方法以及基于時域能量和過零率的語音端點檢測方法。但是這兩種方法同樣存在各自的缺點。基于時域能量的語音端點檢測方法盡管可以更新能量門限,但是在噪聲比較大時將難以區分信號中的語音和噪聲部分。而基于時域能量和過零率的語音端點檢測方法對于低信噪比的情況則效果同樣很差。盡管有些人員針對低信噪比的情況改進了基于時域能量和過零率的語音端點檢測方法,但是這些改進對于非白色噪聲情況依然無能為力。
由于現有的語音端點檢測技術中存在的上述問題,因此希望有一種方法,該方法能夠在在可變噪聲的環境下仍有很好的檢測結果。
發明內容
基于以上需要,本發明提出了一種語音端點檢測方法,該方法包括步驟:輸入語音信號;對語音信號進行分幀并進行加漢明窗處理;對語音信號執行時域到頻域的轉換;針對語音信號逐幀進行基頻提取處理;將語音信號中能夠提取到具有語音特性的基頻的信號區段判斷為確定語音信號區段;以及將語音信號中未能提取到具有語音特性的基頻的信號區段判斷為包含噪聲的信號區段。
根據本發明的另一個實施方式,所述針對語音信號逐幀進行基頻提取處理的步驟包括:對語音信號進行諧波疊加處理,并計算每幀信號進行多次疊加后的諧波和,并將對應于諧波和最大值的頻率確定為相應幀的基頻。
根據本發明的另一個實施方式,所述將語音信號中能夠提取到具有語音特性的基頻的信號區段判斷為確定語音信號區段的步驟包括將語音信號中能夠提取到具有語音特性的基頻的信號區段判斷為確定元音區段。
根據本發明的另一個實施方式,所述將語音信號中能夠提取到具有語音特性的基頻的信號區段判斷為確定語音信號區段的步驟包括將將語音信號中能夠提取到具有語音特性的基頻且其諧波在該信號區內呈水平直線的特點的信號區段判斷為確定音樂區段。
根據本發明的另一個實施方式,所述將語音信號中未能提取到具有語音特性的基頻的信號區段判斷為包含噪聲的信號區段的步驟包括:在語音信號的相應幀中沒有基頻的情況下將所述相應幀判斷為包含噪聲的信號區段;在語音信號的相應幀中所提取的基頻小于正常語音的基頻的最小值的情況下將所述相應幀判斷為包含噪聲的信號區段;以及在語音信號的相應幀中所提取的基頻大于正常語音的基頻的最小值的情況下,計算所述相應幀的自相關系數,并將所述相應幀的自相關系數小于預定自相關系數閾值的所述相應幀判斷為包含噪聲的信號區段。
根據本發明的另一個實施方式,所述將語音信號中未能提取到具有語音特性的基頻的信號區段判斷為包含噪聲的信號區段的步驟包括將所述相應幀的基頻設置為零。
根據本發明的另一個實施方式,所述的語音端點檢測方法還包括步驟:在連續出現未能提取到具有語音特性的基頻的情況下,判斷連續多幀的時長T是否大于或等于預定的時間閾值,如果時長T小于預定的時間閾值,則重復之前的步驟,如果時長T大于或等于預定的時間閾值,則將該時長為T的包含噪聲的信號區段的中間部分確定為確定噪聲區段,而將所述包含噪聲的信號區段的在所述確定噪聲區段兩端的部分確定為潛在噪聲區段;以及比較所述確定噪聲區段與所述潛在噪聲區段在相同頻域上的能量以便確定所述潛在噪聲區段是確定噪聲區段還是輔音或元音的尾音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于索尼株式會社,未經索尼株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910135606.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:沖浪板手把
- 下一篇:配套快速液壓鉗的線纜切斷組件





