[發明專利]一種語音活動檢測方法及裝置在審
| 申請號: | 201410217411.6 | 申請日: | 2014-05-22 |
| 公開(公告)號: | CN104036777A | 公開(公告)日: | 2014-09-10 |
| 發明(設計)人: | 何勇軍;孫廣路;謝怡寧;鄭云龍 | 申請(專利權)人: | 哈爾濱理工大學 |
| 主分類號: | G10L15/20 | 分類號: | G10L15/20;G10L21/0308 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 李迪 |
| 地址: | 150080 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 活動 檢測 方法 裝置 | ||
技術領域
本發明涉及語音信號處理技術領域,尤其涉及一種語音活動檢測方法及裝置。
背景技術
分析和處理語音需要解決的一個首要問題是檢測出語音信號中的語音和非語音,這一任務被稱為語音活動檢測(Voice?activity?detection,VAD)。該技術在語音處理領域中具有重要作用,且在很大程度上影響著其他應用技術的性能,典型的有魯棒語音識別,說話人識別,語音編程和傳輸,以及聯合降噪和回波消除等。
傳統的VAD的基本方法有G.729標準等,G.729標準計算線光譜頻率,全頻段能量,低頻段能量(<1khz),和過零率。然后設定門限對信號的每一幀進行簡單的分類,同時還用平滑和自適應的校正來提高分類的準確性。
盡管上述方法在無噪環境下能取得滿意的性能,但在噪聲環境下,其性能將急劇降低。為解決這一問題,一些研究者提出了基于統計模型的語音活動檢測算法。典型的將假設噪聲和語音信號的頻譜系數能用復雜的高斯隨機變量來建模,從而發展了基于似然比檢驗的語音活動檢測算法。后來,又有許多研究者想通過為語音信號假設不同的統計模型來提高基于統計模型的語音活動檢測算法的性能。例如有高斯模型、拉普拉斯模型、信噪比測量、多個觀測似然比檢驗、廣義伽馬分布模型、馬爾可夫模型等。
這些方法在穩定的噪聲環境下有很好的表現,但在變化的噪聲的條件下,其性能仍然難以滿足現實實用的要求。為解決這一問題,研究者們進一步提出了聲學事件檢測(AED)技術,轉換卡爾曼濾波器(SKF)和聚類算法(如譜聚類)的方法等等。
近年來,隨著稀疏分解與重構理論的成熟,稀疏編碼(Sparse?Coding)在信號處理的各個領域表現出了巨大潛力。該技術在稀疏性準則下將信號用一組基元信號線性表示,獲得信號的稀疏表示(Sparse?Representation)。其中,每個基元信號稱為一個原子(Atom),所有原子組成的集合稱為原子字典(Atom?Dictionary)。現實中的大量信號,如語音、圖像等都滿足或近似滿足稀疏性。
形態成分分析(Morphological?Component?Analysis,MCA)就是一種基于信號稀疏表示的分離方法。這種方法假設對于混合信號中的每一個信號源,都存在這相應的字典,能夠稀疏表示該信號,并且其他信號不能用該字典稀疏表示。在含有噪聲的情況下,MCA是一種有效的稀疏表示方法。基于K奇異值分解(KSVD)是一種由K-均值算法擴展而來的過完備字典訓練方法。該算法運用稀疏表示的方法,相比傳統的算法具有較小的計算量和更好的表現。
發明內容
(一)要解決的技術問題
本發明的目的是提供一種語音活動檢測方法及裝置,以解決現有技術在變化的噪聲條件下語音活動檢測的檢測魯棒性差的問題。
(二)技術方案
為了達到上述目的,本發明提出了一種語音活動檢測方法,該方法包括以下步驟:
提取干凈語音信號的信號特征和混噪語音信號的信號特征;
根據所述干凈語音信號的信號特征進行字典訓練得到語音字典;
根據所述混噪語音信號的信號特征動態更新預設的噪聲訓練數據,提取更新后的所述噪聲訓練數據的信號特征進行在線字典訓練得到噪聲字典;
根據所述語音字典和噪聲字典對輸入的混噪語音信號的信號幀進行稀疏表示;
提取所述稀疏表示中的稀疏系數,根據所述稀疏系數對輸入的混噪語音信號的信號幀進行檢測。
優選地,提取干凈語音信號的信號特征和混噪語音信號的信號特征具體包括:
對干凈語音的離散時間信號進行預處理;
將經過預處理的干凈語音信號的信號幀進行離散傅立葉變換得到干凈語音信號的幅度譜,將所述干凈語音信號的幅度譜作為干凈語音信號的信號特征;
對混噪語音的離散時間信號進行預處理;
將經過預處理的混噪語音信號的信號幀進行離散傅立葉變換得到混噪語音信號的幅度譜,將所述混噪語音信號的幅度譜作為混噪語音信號的信號特征。
優選地,預處理具體包括:對離散時間信號進行分幀,并對分幀處理后的幀信號進行加窗。
優選地,根據干凈語音信號的信號特征進行字典訓練得到語音字典具體包括:
利用K-SVD算法對所述干凈語音信號的信號特征進行字典訓練得到語音字典Φs,計算公式如下所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱理工大學,未經哈爾濱理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410217411.6/2.html,轉載請聲明來源鉆瓜專利網。





