[發(fā)明專利]多分辨率UNet去混響網(wǎng)絡(luò)在審
| 申請?zhí)枺?/td> | 202210613712.5 | 申請日: | 2022-05-31 |
| 公開(公告)號: | CN115116464A | 公開(公告)日: | 2022-09-27 |
| 發(fā)明(設(shè)計)人: | 張曉雷;朱文博;郭紅梅 | 申請(專利權(quán))人: | 西北工業(yè)大學(xué)深圳研究院;西北工業(yè)大學(xué) |
| 主分類號: | G10L21/0208 | 分類號: | G10L21/0208;G10L25/30 |
| 代理公司: | 西北工業(yè)大學(xué)專利中心 61204 | 代理人: | 金鳳 |
| 地址: | 518063 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分辨率 unet 混響 網(wǎng)絡(luò) | ||
本發(fā)明提供了一種多分辨率UNet去混響網(wǎng)絡(luò),通過在不同的分辨率塊中將語音頻譜沿時間維度進行切塊,并在不同的分辨率塊之間加入信息交互,實現(xiàn)了不同分辨率塊間信息的互補,有助于語音去混響性能的提升。本發(fā)明由于使用了多分辨率特征,將下層分辨率塊中的信息與上層分辨率塊之間的信息進行交互,從而漸進式的提高了去混響的性能,解決了基線方法中采用單分辨率特征帶來的性能局限問題。在實際錄制的強混響環(huán)境中進行了實驗驗證,實驗結(jié)果表明所提出的去混響網(wǎng)絡(luò)仍然有很好的去混響性能,解決了原有方法在強混響環(huán)境中性能較差的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及語音處理領(lǐng)域,尤其是一種去混響網(wǎng)絡(luò),通過在不同的分辨率塊中將語音頻譜沿時間維度進行切塊,并在不同的分辨率塊之間加入信息交互,實現(xiàn)了不同分辨率塊間信息的互補,有助于語音去混響性能的提升。
背景技術(shù)
在實際生活中,人們的大部分時間處于室內(nèi)環(huán)境中。在相對封閉的室內(nèi)環(huán)境中,當人們使用手機或電話、視頻會議時,聲源發(fā)出的聲音不僅會通過空氣直接傳入麥克風(fēng)中(通常被稱為直達聲,direct sound),同時也會通過如墻壁、天花板、地板等表面的多次反射后傳入麥克風(fēng)中。麥克風(fēng)接收到的信號是聲源發(fā)出的原始聲信號與其通過表面反射造成的原始聲信號的延遲、衰減的集合,這種現(xiàn)象被成為混響。
對于聽力正常的人群而言,混響將會嚴重的影響語音質(zhì)量及語音可懂度,在混響時間較長的情況下影響更加嚴重,而對于聽力受損的人群,混響的危害更甚。不僅如此,混響的存在還會對很多實際應(yīng)用產(chǎn)生嚴重的影響,如被廣泛應(yīng)用于智能音箱及車內(nèi)語音控制的語音識別系統(tǒng)(Automatic Speech Recognition,ASR),有助于聽力受損者的助聽器(Hearing Aids)以及麥克風(fēng)拾音的聲源定位系統(tǒng)(Sound Source Localization)。
近些年,隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,大量基于深度學(xué)習(xí)的去混響方法被提出,這些方法也使去混響的性能有了巨大的提升。2014年,Han等人首先提出使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)進行語音去混響;在觀察到根據(jù)混響時間(T60) 選擇合適的幀長和幀移能夠提高去混響的性能后,Wu等人將T60納入特征選擇和DNN 訓(xùn)練中;Williamson等人首次在有監(jiān)督學(xué)習(xí)中在復(fù)數(shù)域進行去噪聲和去混響,通過在實數(shù)域和虛數(shù)域估計復(fù)數(shù)理想比率掩模(complex ideal ratio mask,CIRM)共同增強語音的幅度譜和相位譜;Zhao等人觀察到在語音去混響任務(wù)上頻譜映射優(yōu)于時頻掩蔽的方法,而在去噪聲任務(wù)上時頻掩蔽的方法優(yōu)于頻譜映射的方法,構(gòu)建了一種雙階段的算法。
2015年以來,UNet在醫(yī)學(xué)圖像分割領(lǐng)域取得重大突破,開啟深度學(xué)習(xí)時代。在2018年,Ernst等人將UNet網(wǎng)絡(luò)引入語音去混響任務(wù)中。在UNet中,首先對含混響語音頻譜進行步長為2的下采樣直至達到瓶頸特征。隨后,將瓶頸特征經(jīng)過上采樣恢復(fù)到原始頻譜形狀。同時,為了減少由于下采樣造成的重要信息損失,在下采樣層與之對應(yīng)的上采樣層之間加入了跳躍連接。
然而,該方法將整個語音的頻譜送入UNet網(wǎng)絡(luò),缺乏局部信息從而可能導(dǎo)致次優(yōu)的性能。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明提供一種多分辨率UNet去混響網(wǎng)絡(luò)。本發(fā)明提出的多分辨率UNet(Multi-Resolution UNet,MR-UNet)去混響網(wǎng)絡(luò),能夠很好地去除混響所帶來的不利影響。基于UNet的語音去混響網(wǎng)絡(luò)雖然通過下采樣層與上采樣層之間的跳躍連接減少了由于下采樣造成的信息損失,但仍缺乏局部信息而可能導(dǎo)致次優(yōu)的性能。針對此問題,本發(fā)明提出了多分辨率UNet去混響網(wǎng)絡(luò),通過在不同的分辨率塊中將語音頻譜沿時間維度進行切塊,并在不同的分辨率塊之間加入信息交互,實現(xiàn)了不同分辨率塊間信息的互補,有助于語音去混響性能的提升。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西北工業(yè)大學(xué)深圳研究院;西北工業(yè)大學(xué),未經(jīng)西北工業(yè)大學(xué)深圳研究院;西北工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210613712.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于檢測腫瘤的3D UNet網(wǎng)絡(luò)模型構(gòu)建方法、裝置及存儲介質(zhì)
- 一種基于ResNet與UNet模型的圖像分割方法
- 一種基于Capsules-Unet模型的遙感圖像深度學(xué)習(xí)分類方法和系統(tǒng)
- 基于UNet卷積神經(jīng)網(wǎng)絡(luò)的膀胱超聲圖像分割方法及裝置
- 一種基于Unet網(wǎng)絡(luò)的層序地層格架構(gòu)建方法和系統(tǒng)
- 基于改進Unet網(wǎng)絡(luò)的電阻焊接剪切強度識別方法
- 基于改進型UNet++網(wǎng)絡(luò)的遙感圖像建筑物提取方法
- 一種基于注意力Unet模型的醫(yī)學(xué)圖像語義分割方法
- 基于卷積稀疏編碼的Unet語義分割方法
- 一種基于UNet的肺部X光圖像分割方法
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





