[發明專利]一種基于噪聲分類優化IMCRA算法的語音增強方法在審
| 申請號: | 202011115467.2 | 申請日: | 2020-10-19 |
| 公開(公告)號: | CN112133322A | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 張建;尹紅芳;張濤;邵洋洋 | 申請(專利權)人: | 南通賽洋電子有限公司 |
| 主分類號: | G10L21/0264 | 分類號: | G10L21/0264;G10L21/0216;G10L25/21;G10L25/24;G10L25/30;G06N3/08;G06N3/04 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 陳亮亮 |
| 地址: | 226034 江蘇省南通市崇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 噪聲 分類 優化 imcra 算法 語音 增強 方法 | ||
1.一種基于噪聲分類優化IMCRA算法的語音增強方法,其特征在于包含以下步驟:
步驟一:針對不同噪聲類型尋找最優的αs、αd和α參數組合,其中αs和αd是IMCRA算法在估計噪聲功率譜時的兩個平滑參數,α是先驗信噪比估計的權重參數;
步驟二:利用卷積神經網絡CNN對輸入信號的噪聲類型進行分類;
步驟三:按照不同的噪聲類型,根據步驟一的尋優結果選擇不同的參數組:αs、αd和α;
步驟四:根據步驟三選定的參數組,利用IMCRA方法對測試集信號進行語音增強,得到最終增強的語音。
2.按照權利要求1所述的一種基于噪聲分類優化IMCRA算法的語音增強方法,其特征在于:所述步驟一具體為
1.1對輸入的純凈語音進行去直流處理和幅值歸一化處理;
1.2對純凈語音信號疊加不同種類的噪聲,得到帶噪語音信號;
1.3對于每一類噪聲的帶噪語音信號,進行預處理包括分幀和加窗處理;
1.4對于每一類噪聲的帶噪語音信號,利用固定變量法對參數α進行尋優;
1.5對于每一類噪聲的帶噪語音信號,利用固定變量法分別對參數αs和αd進行尋優。
3.按照權利要求2所述的一種基于噪聲分類優化IMCRA算法的語音增強方法,其特征在于:所述1.4具體為
1.4.1固定參數αs和αd,選定參數α的初始值;
1.4.2將選定的參數αs、αd和α輸入到IMCRA方法,并利用IMCRA方法對輸入的帶噪語音信號進行語音增強,得到增強的語音;
1.4.3計算增強語音的短時目標可懂度STOI、語音質量感知評估PESQ以及分段信噪比SegSNR;
1.4.4改變參數α,重復步驟1.4.2-1.4.3,直到最終得到的STOI、PESQ和SegSNR值都最大,則參數α尋優完畢。
4.按照權利要求1所述的一種基于噪聲分類優化IMCRA算法的語音增強方法,其特征在于:所述步驟二具體為
2.1將帶噪語音分為訓練集和測試集;
2.2利用訓練集信號對卷積神經網路進行訓練;
2.3利用訓練好的卷積神經網絡對測試集信號的噪聲類型進行分類。
5.按照權利要求4所述的一種基于噪聲分類優化IMCRA算法的語音增強方法,其特征在于:所述2.2具體為
2.2.1對訓練集信號進行預處理,包括分幀和加窗;
2.2.2對分幀加窗后的信號進行傅里葉變換:
X(i,k)=FFT[xi(n)]
其中,X(i,k)是第i幀信號在第k條譜線處的功率譜,FFT表示傅里葉變換,xi(n)表示第i幀信號,n表示序列索引號;
2.2.3利用所述的每一幀噪聲信號功率譜分別計算每一幀噪聲信號的梅爾頻率倒譜系數MFCC及梅爾頻率倒譜系數的一階差分ΔMFCC;
2.2.4將信號的時間信息作為第一維特征,將提取的MFCC和ΔMFCC特征聯合作為第二維特征,則最終形成二維特征作為卷積神經網絡的輸入;
2.2.5對卷積神經網絡的權值進行初始化;
2.2.6將輸入的二維特征經輸入層依次進入隱藏層、全連接層和輸出層得到輸出值;
2.2.7求出卷積神經網絡的輸出值與設定的目標值之間的誤差;
2.2.8根據誤差分別求各卷積層、各池化層和全連接層的誤差,根據求得的該誤差進行權值更新;
2.2.9當達到預設的最大訓練次數或達到期望的分類準確率時,結束訓練;否則返回2.2.6繼續訓練;
2.2.10網絡輸出為判斷的噪聲類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南通賽洋電子有限公司,未經南通賽洋電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011115467.2/1.html,轉載請聲明來源鉆瓜專利網。





