[發明專利]輕量級時域卷積網絡語音增強方法與系統在審
| 申請號: | 202011329491.6 | 申請日: | 2020-11-24 |
| 公開(公告)號: | CN112331224A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 劉明;周彥兵;王貝;孫沖武;趙學華 | 申請(專利權)人: | 深圳信息職業技術學院 |
| 主分類號: | G10L21/02 | 分類號: | G10L21/02;G10L21/0216;G10L25/30 |
| 代理公司: | 深圳市添源知識產權代理事務所(普通合伙) 44451 | 代理人: | 羅志偉 |
| 地址: | 518000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輕量級 時域 卷積 網絡 語音 增強 方法 系統 | ||
本發明提供了一種輕量級時域卷積網絡語音增強方法,首先,將帶噪語音信號進行分幀加窗處理,然后進行短時傅里葉變換,得到帶噪語音信號的幅度譜和相位譜,隨后將帶噪語音信號的幅度譜送入時域卷積網絡模型,進行先驗信噪比的估計,緊接著利用估計的先驗信噪比進行增益函數的估計,最后在幅度域進行濾波降噪,并利用帶噪語音信號的相位譜作為增強后的相位,進行語音信號的重構。本發明還提供了一種輕量級時域卷積網絡語音增強系統。本發明的有益效果是:算法的神經網絡部分只進行先驗信噪比的估計,減小了任務難度,實現了更輕量級的神經網絡架構,內存占用量小,運算復雜度低,使其可以較好的在一些低運算量平臺的嵌入式設備上使用。
技術領域
本發明涉及語音增強方法,尤其涉及一種輕量級時域卷積網絡語音增強方法與系統。
背景技術
目前,市面上的語音交互產品,如智能手機、服務機器人、錄音筆、翻譯機等,都會內置語音增強算法,用來消除環境中的背景噪聲,從而達到提高噪聲環境中用戶使用體驗的目的。最新的研究表明,深度神經網絡在語音增強方面表現出了十分優秀的效果。但是,基于深度神經網絡的降噪方法也存在著內存占用量大,運算復雜度高等缺點,使其難以在一些低運算量平臺的嵌入式設備上使用。
發明內容
為了解決現有技術中的問題,本發明提供了一種基于貝葉斯統計模型的輕量級時域卷積網絡語音增強方法與系統。
本發明提供了一種輕量級時域卷積網絡語音增強方法,首先,將帶噪語音信號進行分幀加窗處理,然后進行短時傅里葉變換,得到帶噪語音信號的幅度譜和相位譜,隨后將帶噪語音信號的幅度譜送入時域卷積網絡模型,進行先驗信噪比的估計,緊接著利用估計的先驗信噪比進行增益函數的估計,最后在幅度域進行濾波降噪,并利用帶噪語音信號的相位譜作為增強后的相位,進行語音信號的重構。
語音信號的重構包括反傅里葉變換和重疊相加。
作為本發明的進一步改進,所述時域卷積網絡模型的構建過程如下:
首先,根據先驗信噪比的定義,其取值范圍為大于零的任意數,如式子 (1)所示:
其中,|Xclean(n,k)|和|Nnoise(n,k)|分別代表純凈語音和噪聲信號的幅度譜,n 和k分別為幀索引和頻率索引,為了降低時域卷積網絡模型的學習難度,對其進行值域范圍進行壓縮,通過對先驗信噪比的統計研究發現,其對數變換形式,如式(2)所示,是服從高斯分布的,因此利用一種累積分布函數,對其進行壓縮,如式子(3)所示:
ξdB(n,k)=10·log10(ξ(n,k)) (2)
其中,ξdB(n,k)為對數壓縮后的先驗信噪比,而則是通過累積分布函數壓縮后的先驗信噪比,其取值范圍為[0,1],erf(·)代表的是累積分布函數,μk和σk分別為在不同頻點上,通過統計分析得到的ξdB(n,k)所對應的均值和方差;
接下來,考慮到語音信號之間的時序依賴性,利用空洞卷積設計了一種輕量級的時域卷積網絡模型,來學習帶噪語音幅度譜|Xnoisy(n,k)|和先驗信噪比之間的映射關系。
作為本發明的進一步改進,所述時間卷積網絡模型訓練時的損失函數用交叉熵來計算,計算式如式子(4)所示,其中yi和分別為理想的先驗信噪比和神經網絡輸出層預測的先驗信噪比結果:
作為本發明的進一步改進,對進行降噪濾波的增益函數進行估計,采用的是以貝葉斯理論和最小均方誤差準則推導出的增益函數表達形式,如下式子(5)所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳信息職業技術學院,未經深圳信息職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011329491.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種天然清香環保涂料及其制備方法
- 下一篇:一種計算機防塵機箱





