[發明專利]一種基于譜減與自適應子帶對數能熵積的語音檢測方法在審
| 申請號: | 202111676584.0 | 申請日: | 2021-12-31 |
| 公開(公告)號: | CN114530161A | 公開(公告)日: | 2022-05-24 |
| 發明(設計)人: | 張洪德;李曉毅;韓鑫怡;栗鐵樁;吳尚峰;劉學;薛元元;高仙 | 申請(專利權)人: | 中國人民解放軍陸軍工程大學 |
| 主分類號: | G10L21/0232 | 分類號: | G10L21/0232;G10L21/0264;G10L25/03;G10L25/78 |
| 代理公司: | 北京力量專利代理事務所(特殊普通合伙) 11504 | 代理人: | 王鴻遠 |
| 地址: | 210007 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自適應 對數 能熵積 語音 檢測 方法 | ||
一種基于譜減與自適應子帶對數能熵積的語音檢測方法,對帶噪語音信號首先進行預處理,僅保留頻率在100Hz~3500Hz范圍內的部分;使用自適應參數的多窗譜估計譜減法對預處理后帶噪語音信號進行降噪處理,得到增強語音信號;進一步得到子帶能量、歸一化最小帶能量參數,從而計算出對應信號幀的有效子帶個數;得到自適應子帶對數能量和自適應子帶譜熵;設定動態閾值門限,使用單參數動態閾值的雙門限檢測方法進行語音檢測;輸出檢測完成的各個語音片段。解決了現有技術在低信噪比環境下語音檢測準確率低、魯棒性差的問題,能夠滿足實時語音檢測需求,針對不同類型噪聲環境,保證語音檢測工作的穩定性。
技術領域
本發明涉及語音端點檢測領域,尤其涉及一種基于譜減與自適應子帶對數能熵積的 語音檢測方法。
背景技術
語音端點檢測又稱為語音活動檢測(Voice Activity Detection,VAD),其最早同樣由貝 爾實驗室提出并應用于電話通信系統,根據對語音區間與非語言區間的檢測,合理劃分 通信信道以提高信道使用率。同語音增強發展歷史類似,語音檢測同樣在過去幾十年間 得到長足的發展,不同的語音檢測方法不斷被研究人員所提出,目前語音檢測方法主要可以分為兩大類:基于語音特征參數的檢測方法和基于統計模型的檢測方法。
基于語音特征參數的檢測方法主要通過判斷語音特征參數變化趨勢進行區分語音區 間和噪聲區間,核心在于語音特征參數的選擇和提取。1975年Rabiner等人提出一種基 于時域特征參數的檢測方法,將語音信號的短時能量和過零率作為特征參數進行檢測,這種在時域直接進行檢測方法實現簡單,在高信噪比條件下能夠有較好的效果,但隨著 信噪比降低檢測效果下降嚴重。1980年Kobayash等人提出一種基于頻域特征參數的檢 測方法,首次將語音檢測由時域分析引入頻域進行分析,該方法的基本思想是通過快速 傅里葉變換(Fast Fourier Transformation,FFT)將信號從時域轉換到頻域,以提取其頻域特 征進行檢測,一定程度的提高了低信噪比條件下語音檢測的準確率。不少研究者在后續 的研究中陸續提出了更多的頻域特征參數用于語音檢測,如Oshikiri等人利用頻譜變化量 進行檢測,Vahatalo等人提出一種在頻域利用子帶能量作為特征參數進行檢測的方法。 1980年Davis等人提出更符合人耳聽覺特性的梅爾頻率倒譜系數(Mel-Frequency CepstralCoefficient,MFCC),使語音信號能夠更準確的被表示,2000年Huang等人提出基于MFCC 的語音檢測方法,隨后的研究中陸續提出許多基于MFCC的改進方法,如Wang等人提 出一種基于MFCC距離的語音檢測方法。2005年李曄等人提出一種基于譜熵的語音檢測 方法,將信號各子帶根據信噪比修正過后的譜熵作為特征參數進行檢測,在低信噪比條 件下有較高的檢測準確率。隨著研究進一步深入,研究人員使用不同語音特征參數聯合 進行檢測,如將曾樹華等人將MFCC距離與對數能量相結合組成新的特征參數進行檢測, 雷靜等人提出基于均勻子帶譜方差和梅爾倒譜距離等四種參數相融合的語音端點檢測方 法。相比使用單一語音特征參數,基于不同特征參數的檢測方法的檢測效果更好。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍陸軍工程大學,未經中國人民解放軍陸軍工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111676584.0/2.html,轉載請聲明來源鉆瓜專利網。





