[發(fā)明專利]語音降噪方法、裝置、設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202010522631.5 | 申請日: | 2020-06-10 |
| 公開(公告)號: | CN111429932A | 公開(公告)日: | 2020-07-17 |
| 發(fā)明(設(shè)計)人: | 丁大為;王哲;嵇望 | 申請(專利權(quán))人: | 浙江遠(yuǎn)傳信息技術(shù)股份有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L21/0232;G10L21/0264 |
| 代理公司: | 杭州創(chuàng)智卓英知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 33324 | 代理人: | 張迪 |
| 地址: | 310051 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 方法 裝置 設(shè)備 介質(zhì) | ||
本發(fā)明公開了一種語音降噪方法,涉及機器學(xué)習(xí)領(lǐng)域,用于解決現(xiàn)有語音降噪計算量大、資源占用多的問題,該方法包括以下步驟:獲取語音數(shù)據(jù);對所述語音數(shù)據(jù)進行預(yù)處理,并提取預(yù)處理后的所述語音數(shù)據(jù)的多維特征;將所述多維特征輸入預(yù)設(shè)語音降噪模型,得到頻帶增益系數(shù);將所述語音數(shù)據(jù)分為若干頻帶,根據(jù)所述頻帶增益系數(shù)過濾所述頻帶中的噪音數(shù)據(jù);將過濾后的所述語音數(shù)據(jù)恢復(fù)成語音數(shù)據(jù)流,輸出所述語音數(shù)據(jù)流。本發(fā)明還公開了一種語音降噪裝置、電子設(shè)備和計算機存儲介質(zhì)。本發(fā)明通過計算頻帶增益系數(shù),進而實現(xiàn)語音降噪。
技術(shù)領(lǐng)域
本發(fā)明涉及機器學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種語音降噪方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù)
噪聲抑制從上世紀(jì)70年代開始就已經(jīng)成為了高關(guān)注度的話題。傳統(tǒng)噪聲抑制算法都需要噪聲頻譜估計器,噪聲頻譜估計器本身由語音活動檢測器(VAD)或類似的算法驅(qū)動,噪聲頻譜估計器的每個組件都需要準(zhǔn)確的估計器,對精度要求高,需要大量的人工調(diào)參工作,效率低,只要有一個參數(shù)不夠精確,就容易影響降噪效果。
現(xiàn)有技術(shù)開始通過深度學(xué)習(xí)技術(shù)進行噪聲抑制,普遍做法是在工程問題中引入深層神經(jīng)網(wǎng)絡(luò),這樣的方法稱為端到端——神經(jīng)元接受并傳遞信息,使得誤差最小化;端對端方法已被應(yīng)用于語音識別和語音合成等工程問題,并且效果顯著。但是,深度學(xué)習(xí)的模型需要占用大量資源,造成資源的浪費。例如,噪聲抑制的一些方法使用具有數(shù)千個神經(jīng)元和數(shù)千萬個權(quán)重的層來執(zhí)行噪聲抑制,導(dǎo)致模型運行網(wǎng)絡(luò)所需的計算成本巨大,模型本身的規(guī)模也難以控制,并且需要存儲數(shù)千行代碼以及幾十兆字節(jié)的神經(jīng)元權(quán)重;通過這些方法進行語音降噪時,對系統(tǒng)的要求高,計算量大。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的之一在于提供一種語音降噪方法,其通過提取語音數(shù)據(jù)的多維特征并輸入語音降噪模型,進而得到頻帶增益系數(shù),并根據(jù)頻帶增益系數(shù)對語音數(shù)據(jù)進行分頻帶降噪。
本發(fā)明的目的之一采用以下技術(shù)方案實現(xiàn):
一種語音降噪方法,包括以下步驟:
獲取語音數(shù)據(jù);
對所述語音數(shù)據(jù)進行預(yù)處理,提取預(yù)處理后的所述語音數(shù)據(jù)的多維特征;
將所述多維特征輸入預(yù)設(shè)語音降噪模型,得到頻帶增益系數(shù)及語音活動檢測參數(shù);
當(dāng)所述語音活動檢測參數(shù)為1時,將所述語音數(shù)據(jù)分為若干頻帶,根據(jù)所述頻帶增益系數(shù)過濾所述頻帶中的噪音數(shù)據(jù);
當(dāng)所述語音活動檢測參數(shù)為0時,將所述頻帶增益系數(shù)設(shè)為0,并過濾所述頻帶中的噪音數(shù)據(jù);
將過濾后的所述語音數(shù)據(jù)恢復(fù)成語音數(shù)據(jù)流,輸出所述語音數(shù)據(jù)流。
進一步地,獲取語音數(shù)據(jù),包括以下步驟:
每隔10ms采集一幀所述語音數(shù)據(jù),采樣率為48kHz。
進一步地,所述預(yù)處理包括:對所述語音數(shù)據(jù)進行FFT變換。
進一步地,將所述語音數(shù)據(jù)分為若干頻帶,根據(jù)所述頻帶增益系數(shù)過濾所述頻帶中的噪音數(shù)據(jù),包括以下步驟:
通過梳狀濾波器過濾所述語音數(shù)據(jù),并根據(jù)所述預(yù)設(shè)語音降噪模型中的頻帶數(shù)量,將過濾后的所述語音數(shù)據(jù)分為若干頻帶;
根據(jù)所述頻帶增益系數(shù)對每個頻帶的語音數(shù)據(jù)進行濾波,過濾噪音數(shù)據(jù)。
進一步地,提取預(yù)處理后的所述語音數(shù)據(jù)的多維特征,包括以下步驟:
將每一幀所述語音數(shù)據(jù)的頻譜劃分為22個不等分頻帶,并對每個所述頻帶的能量進行dct變換,得到22個巴克頻率倒譜系數(shù),作為第一特征;
提取所述第一特征中的前6維特征,計算一階和二階導(dǎo)數(shù),得到12維特征,作為第二特征;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江遠(yuǎn)傳信息技術(shù)股份有限公司,未經(jīng)浙江遠(yuǎn)傳信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010522631.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





