[發(fā)明專利]一種利用CNN的SE-ED網(wǎng)絡進行遠場語音去混響的方法在審
| 申請?zhí)枺?/td> | 201910921234.2 | 申請日: | 2019-09-27 |
| 公開(公告)號: | CN110544485A | 公開(公告)日: | 2019-12-06 |
| 發(fā)明(設計)人: | 李楠;関博史 | 申請(專利權(quán))人: | 慧言科技(天津)有限公司 |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L25/24;G10L25/30 |
| 代理公司: | 11670 北京棧橋知識產(chǎn)權(quán)代理事務所(普通合伙) | 代理人: | 潘衛(wèi)鋒<國際申請>=<國際公布>=<進入 |
| 地址: | 300384 天津市西青區(qū)天津華苑產(chǎn)業(yè)*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音特征 語音 語音識別 混響 遠場 語音信號處理 解碼 處理對象 復雜場景 聲學模型 數(shù)據(jù)集中 特征提取 特征增強 網(wǎng)絡框架 預期結(jié)果 數(shù)據(jù)集 指向性 映射 準確率 網(wǎng)絡 | ||
本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,針對遠場情況下混響比較大從而引起語音識別的識別準確率嚴重下降的情況,提出了一種利用CNN的SE?ED網(wǎng)絡進行語音去混響的方法。技術(shù)方案以2014年的REVERB Challenge數(shù)據(jù)集作為處理對象,主要涉及以下幾個方面:1)對該數(shù)據(jù)集中的含混響的語音和與其對應的不含混響的語音進行特征提??;2)針對所提取的特征進行從含混響的語音特征到不含混響語音特征映射;3)將通過所提出的網(wǎng)絡框架所增強后的特征進行聲學模型訓練及其解碼。本發(fā)明通過控制scale的大小,把語音中重要的特征增強,不重要的特征減弱,從而讓提取的語音特征指向性更強,達到了方案的預期結(jié)果,從而使得復雜場景下的遠場語音識別性能得到了很好的提升。
技術(shù)領(lǐng)域
本發(fā)明涉及語音信號處理技術(shù)領(lǐng)域,具體是涉及一種利用CNN的SE-ED網(wǎng)絡進行遠場語音去混響的方法。
背景技術(shù)
語音的去混響是遠場語音識別中的一個主要的研究方向。在一個房間內(nèi),混響語音可以表示為干凈語音信號和房間沖擊響應(RIR)的卷積,所以含混響的語音會受到同一句話中的之前的語音信息的干擾?;祉憰ㄔ缙诨祉懞屯砥诨祉懀缙诨祉憰φZ音識別的效果帶來一定的提升,但是晚期混響會使語音識別的識別效果下降。因此,如果能有效地抑制或減少晚期混響,將會得到一個良好的語音識別效果。
目前神經(jīng)網(wǎng)絡方法雖然能夠建立一個良好的非線性映射,但是僅僅使用全連接的神經(jīng)網(wǎng)絡,效果很難達到本發(fā)明所預期的效果,構(gòu)建一個好的網(wǎng)絡結(jié)構(gòu)對于語音識別將產(chǎn)生一個好的識別性能的提升,對復雜場景下的語音識別有著現(xiàn)實意義。卷積神經(jīng)網(wǎng)絡(CNN)已被證明是解決各種視覺任務的有效模型,但在解決語音去混響領(lǐng)域的研究仍有待深入。
發(fā)明內(nèi)容
為了解決以上問題,本發(fā)明提供了一種利用CNN的SE-ED(Squeeze-and-Excitation結(jié)構(gòu)和Encoder-Decoder)框架進行遠場語音去混響的方法,具體的技術(shù)方案如下:
一種利用CNN的SE-ED框架進行遠場語音去混響的方法,包括以下步驟:
S1:聲學特征的提取,Mel頻率倒譜系數(shù)(MFCC)是基于人耳聽覺頻域特性,將線性幅度譜映射到基于聽覺感知的Mel非線性幅度譜中,再轉(zhuǎn)換到倒譜上,具體包括:
S11:預加重:將為2014年的REVERB Challenge比賽數(shù)據(jù)集中任意一組語音信號s(n)通過高通濾波器,所述高通濾波器的函數(shù)關(guān)系可以表示為:H(z)=1-az-1([a∈[0.9,1]),a值取0.95。
S12:加窗:取25ms為一幀,并使用漢寧窗。
S13:快速傅里葉變換(FFT):對每一幀進行FFT變換,從時域數(shù)據(jù)轉(zhuǎn)變?yōu)轭l域數(shù)據(jù),并計算其能量。
S14:Mel濾波:把求出的每幀譜線能量通過Mel濾波器,并計算在Mel濾波器中的能量。
S15:計算DCT倒譜:把Mel濾波器的能量取對數(shù)后計算DCT,得到Mel頻率倒譜系數(shù)MFCC。
S2:神經(jīng)網(wǎng)絡框架的設計及其訓練包括以下步驟:
S21:構(gòu)建SE—ED(Squeeze-and-Excitation—Encoder-Decoder)網(wǎng)絡結(jié)構(gòu),其中Encoder-decoder模型框架中穿插著SeNet(Squeeze-and-Excitation Networks)結(jié)構(gòu)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于慧言科技(天津)有限公司,未經(jīng)慧言科技(天津)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910921234.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





