[發明專利]一種利用CNN的SE-ED網絡進行遠場語音去混響的方法在審
| 申請號: | 201910921234.2 | 申請日: | 2019-09-27 |
| 公開(公告)號: | CN110544485A | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 李楠;関博史 | 申請(專利權)人: | 慧言科技(天津)有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L25/24;G10L25/30 |
| 代理公司: | 11670 北京棧橋知識產權代理事務所(普通合伙) | 代理人: | 潘衛鋒<國際申請>=<國際公布>=<進入 |
| 地址: | 300384 天津市西青區天津華苑產業*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音特征 語音 語音識別 混響 遠場 語音信號處理 解碼 處理對象 復雜場景 聲學模型 數據集中 特征提取 特征增強 網絡框架 預期結果 數據集 指向性 映射 準確率 網絡 | ||
1.一種利用CNN的SE-ED網絡進行遠場語音去混響的方法,其特征在于,包括以下步驟:
S1:聲學特征的提取:
S11:預加重:將數據集中任意一組語音信號s(n)通過高通濾波器;
S12:加窗:取25ms為一幀,并使用漢寧窗;
S13:快速傅里葉變換(FFT):對每一幀進行FFT變換,從時域數據轉變為頻域數據,并計算其能量;
S14:Mel濾波:把求出的每幀譜線能量通過Mel濾波器,并計算在Mel濾波器中的能量;
S15:計算DCT倒譜:把Mel濾波器的能量取對數后計算DCT,得到Mel頻率倒譜系數MFCC;
S2:神經網絡框架的設計及其訓練:
S21:構建SE—ED(Squeeze-and-Excitation—Encoder-Decoder)網絡結構,其中Encoder-decoder模型框架中穿插著SeNet(Squeeze-and-Excitation Networks)結構;
S22:在所述Encoder-decoder模型框架中,將Encoder的通道個數分別設置成[12,12,24,24,32],將Decoder的通道個數分別設置成為[32,24,24,12,12],卷積神經網絡的通道總個數設置為C;
S23:對步驟15中得到的MFCC特征進行Squeeze操作,對C個通道做全局平均池化處理;
S24:對S22中得到的全局平均池化數據通過兩個全連接實現Excitation操作,基于通道的整體信息訓練出得出下一級輸入數據;將所輸入述數據通過sigmoid限制到[0,1]范圍內得到scale值;
S25:使用訓練出scale值與原來的卷積神經網絡的輸出層的C個通道進行相乘,得到下一級的輸入數據;
S3:基于DNN-HMM聲學模型的訓練及其解碼:
S31:使用Kaldi中的nnet2中的聲學模型進行最終的語音識別;
S32:使用干凈語音的BNF和干凈語音的MFCC的融合特征進行歸一化,然后求其一階差分和二階差分,將進行差分后的特征來進行單因素以及三音素訓練;
S33:使用數據集中多場景下進行語音去混響之后的BNF和MFCC特征進行聲學模型的訓練;
S34:最后將去混響之后的測試集數據進行解碼。
2.如權利要求1所述的一種遠場語音去混響的方法,其特征在于,步驟S11中,所述數據集為2014年的REVERB Challenge比賽數據集。
3.如權利要求1所述的一種遠場語音去混響的方法,其特征在于,步驟S11中,所述高通濾波器的函數關系可以表示為:H(z)=1-az-1([a∈[0.9,1]),a值取0.95。
4.如權利要求1所述的一種遠場語音去混響的方法,其特征在于,步驟S23中,所述Squeeze的計算函數關系可以表示為:
5.如權利要求1所述的一種遠場語音去混響的方法,其特征在于,步驟S23中,所述Excitatione的計算函數關系可以表示為:s=Fex(z,W)=σ(g(z,W))=σ(w2δ(W1z))。
6.如權利要求1所述的一種遠場語音去混響的方法,其特征在于,步驟S24中所述的兩個全連接,第一個全連接把C個通道壓縮成了C/r個通道來降低計算量,第二個全連接再恢復回C個通道。
7.如權利要求6所述的一種遠場語音去混響的方法,其特征在于,所述r是指壓縮的比例,大小設置為4。
8.如權利要求1所述的一種遠場語音去混響的方法,其特征在于,步驟S3中,使用了LDA算法和MLLR算法來進行模型的優化。
9.如權利要求1所述的一種遠場語音去混響的方法,其特征在于,步驟S3中,所使用的語言模型為tri-gram語言模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于慧言科技(天津)有限公司,未經慧言科技(天津)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910921234.2/1.html,轉載請聲明來源鉆瓜專利網。





