[發明專利]一種語音降噪方法有效
| 申請號: | 201811379108.0 | 申請日: | 2018-11-19 |
| 公開(公告)號: | CN109378013B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 郝小龍;韓斌;樊強;彭啟偉;薛依銘;王學廣;賈政;張鐵勛;崔漾 | 申請(專利權)人: | 南瑞集團有限公司;南京南瑞信息通信科技有限公司 |
| 主分類號: | G10L21/0264 | 分類號: | G10L21/0264;G10L21/0232;G10L25/21;G10L25/87 |
| 代理公司: | 成都弘毅天承知識產權代理有限公司 51230 | 代理人: | 馬林中 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 方法 | ||
本發明公開了一種語音降噪方法,結合傳統的信號處理方法和神經網絡模型,二者取長補短,先使用傳統的信號處理方法對音頻信號進行處理,能夠濾除一部分均勻的環境噪聲,如白噪聲,使得后續的神經網絡模型能夠主要處理其他噪聲,如汽車鳴笛,其他人聲音等,同時,本方法對帶噪語音樣本執行VAD操作,去掉了非必要的信號,能夠一定程度訓練和降噪的效果,解決了傳統信號處理方法可擴展性差,不同的噪聲環境需要不同的;神經網絡雖然能夠處理所有噪聲情況,但是該方法非常依賴于訓練樣本的問題。
技術領域
本發明涉及音頻處理領域,特別涉及一種語音降噪方法。
背景技術
現實生活中,語音信號一般都帶有噪聲,在進一步處理信號前,往往要對信號進行降噪,隨著信噪比的減小,降噪方法處理的效果也隨之變差,也經常使得語音丟字或者波形失真。如何在低信噪比情況下,達到不錯的降噪效果,是一個值得探究的問題。現在的語音降噪一般分為,傳統信號處理方式:如最小均方算法、譜減法、維納濾波法;以及神經網絡方式,使用深度學習網絡直接在時域處理,使用帶噪聲語音以及干凈語音樣本訓練降噪模型,使用模型對輸入語音進行降噪處理。
上述兩種語音降噪分別的缺陷如下:傳統信號處理方法可擴展性差,不同的噪聲環境需要不同的;神經網絡雖然能夠處理所有噪聲情況,但是該方法非常依賴于訓練樣本。
發明內容
本發明的目的在于:提供了一種語音降噪方法,解決了傳統信號處理方法可擴展性差,不同的噪聲環境需要不同的;神經網絡雖然能夠處理所有噪聲情況,但是該方法非常依賴于訓練樣本的問題。
本發明采用的技術方案如下:
一種語音降噪方法,包括基于神經網絡模型的深度降噪模型,還包括以下步驟:
A、對帶噪語音信號進行預處理得到預處理過的語音信號;
B、使用語音端點檢測技術VAD對步驟A中預處理過的語音信號進行端點檢測,根據信號的短時能量和過零率,確定該段語音信號的有效起點和終點;
C、根據步驟B檢測到語音信號的有效起點和終點,剪裁整個語音信號;
D、將步驟C中裁剪后的語音信號轉換為預定格式的帶噪語音信號;
E、將步驟D中預定格式的帶噪語音信號切片成固定長度;
F、將步驟E中的帶噪語音信號切片作為深度降噪模型的輸入,通過深度降噪模型,得到干凈的語音信號;
進一步的,所述步驟A中對帶噪語音信號進行預處理的方法包括以下步驟:
A1、對輸入的帶噪語音信號進行加窗處理,將連續的語音信號拆分成語音幀;
A2、對每一幀語音信號進行快速傅里葉變換FFT,將時域信號轉換到頻域;
A3、使用傳統的頻域信號處理方法對每一幀頻域信號進去噪處理;
A4、將步驟A3中進去噪處理結果進行反傅里葉變換,將頻域信號轉換為時域信號得到預處理后的語音幀;
A5、對步驟A4中得到預處理后的語音幀進行合成,得到的信號為預處理過的語音信號。
進一步的,所述步驟D中的預定格式包括預定頻率、預定量化級和預定調制方法。
基于神經網絡的深度降噪模型設計如圖所示。共包含編碼網絡和解碼網絡。在編碼網絡,采用全卷積網絡實現信號卷積處理,采用Pooling層實現信號縮放。在解碼網絡,采用反Pooling層和卷積層,實現信號的解碼,其中反Pooling層用到解碼網絡中對應層的Pooling信息,最終輸出增強或去噪語音。
進一步的,所述基于神經網絡模型的深度降噪模型的訓練包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南瑞集團有限公司;南京南瑞信息通信科技有限公司,未經南瑞集團有限公司;南京南瑞信息通信科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811379108.0/2.html,轉載請聲明來源鉆瓜專利網。





