[發明專利]采用感知語譜結構邊界參數的語音端點檢測算法有效
| 申請號: | 201410175090.8 | 申請日: | 2014-04-29 |
| 公開(公告)號: | CN104091593B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 吳迪;趙鶴鳴;陶智 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G10L15/05 | 分類號: | G10L15/05;G10L21/02 |
| 代理公司: | 南京經緯專利商標代理有限公司32200 | 代理人: | 曹毅 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采用 感知 結構 邊界 參數 語音 端點 檢測 算法 | ||
技術領域
本發明屬于語音識別領域,涉及一種語音端點檢測算法,尤其涉及一種采用感知語譜結構邊界參數的語音端點檢測算法。?
背景技術
作為語音識別和說話人識別的基礎,正確有效的端點檢測,可以大大提高說話人識別系統和語音識別系統的識別率。在實驗室高信噪比環境下,傳統的端點檢測算法可以很好地檢測出語音端點。然而在低信噪比環境下,大多數端點檢測算法的性能均急劇下降。?
近年來,很多學者對噪聲魯棒的端點檢測進行了研究。Ganapathiraju(A.?Ganapathiraju,?et?al.?Comparison?of?Energy-Based?Endpoint?Detectors?for?Speech?Signal?Processing?.?In?Proc.?lEEE?Publications,?1996;?500-503)等人采用短時能量和短時過零率相結合的方法(Energy?and?Zero-Crossing?Rate,EZCR)進行端點檢測的研究。這種方法相對于傳統的能量方法,端點檢測具有更好的魯棒性。然而這種方法無法在更低信噪比的環境下發揮作用。陳振標等人(陳振標,?徐波。基于子帶能量特征的最優化語音端點檢測算法研究。聲學學報,?2005;30(2):171-176)根據語音的頻域能量分布特點,研究了子帶幅度[Sub-Band?Amplitude,SBA]?及能量,并采用更具區分性和抗噪性的多個子帶能量和圖像處理中常用的最優化邊緣檢測相結合的檢測算法來進行端點檢測,使得端點檢測在復雜噪聲環境下的性能有明顯改善。此外,Zhang等人(Xueying?Zhang?,et?al.?A?Speech?Endpoint?Detection?Method?Based?on?Wavelet?Coefficient?Variance?and?Sub-Band?Amplitude?Variance.?.?In?Proc.?lEEE?ICICIC,?2006;?105-109)提出了一種利用小波系數(Wavelet?Coefficient,WC)的方法,利用小波分析的方法進行端點檢測,由于該方法能夠在各尺度分析信號,所以能夠在一定程度上區分出語音段和噪聲段。Wu等人(Bing-Fei?Wu,?Kun-Ching?Wang.?Robust?Endpoint?Detection?Algorithm?Based?on?the?Adaptive?Band-Partitioning?Spectral?Entropy?in?Adverse?Environments.?IEEE?Transactions?on?Speech?and?Audio?Processing,?2005;?13(5):762-775)把自適應子帶譜熵(Adaptive?Band-Partitioning?Spectral,?ABSE)的方法用于端點檢測。該方法可以很好的區分語音的子帶信號與噪聲,并在含有噪聲的環境下取得了較好的端點檢測正確率。Li(Q.Li,?et?al.?A?Robust?real-time?endpoint?detector?with?energy?normalization?for?ASR?in?adverse?environments.?International?Conference?on?Acoustics?Speech?and?Signal?Processing,?2001;?574-577)借鑒圖像處理中最優化邊緣檢測的方法用于語音的端點檢測,采用一個濾波器加上三態決策邏輯進行端點檢測,因此在不同信噪比的情況下不需要調整門限。該方法結合了圖像處理的算法,對端點檢測起到了很好的輔助作用。然而,以上這些方法在低信噪比環境下,都無法得到較高的端點檢測正確率。?
發明內容
要解決的技術問題:低信噪比環境下,常規的端點檢測方法的端點檢測正確率非常低的問題。?
技術方案:針對低信噪比下語音信號與噪聲信號在時-頻域二維空間的不同特征,并結合基于聽覺感知特性的語音增強算法,提出感知語譜結構邊界參數PSSB?(Perception?Spectrogram?Structure?Boundary),并將其用于端點檢測。首先,對低信噪比語音進行基于聽覺掩蔽特性的語音增強。與傳統的語音增強算法相比,這種方法更有效地保留住人耳可感知的語音成分。在此基礎之上,在二維層面中考慮純凈語音語譜在時間軸上的連續分布特性,對含噪語音進行二維增強,使語音的語譜結構更進一步突顯出來,同時抑制了噪聲的語譜結構。最后尋找出連續分布的純凈語音語譜結構的二維邊界,并提出PSSB參數用于端點檢測。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410175090.8/2.html,轉載請聲明來源鉆瓜專利網。





