[發(fā)明專利]面向麥克風陣列的通道注意力加權的語音增強方法在審
| 申請?zhí)枺?/td> | 202011028613.8 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112151059A | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設計)人: | 唐閨臣;孫世若;梁瑞宇;王青云;謝躍;包永強;鄒采榮 | 申請(專利權)人: | 南京工程學院 |
| 主分類號: | G10L21/0216 | 分類號: | G10L21/0216;G10L21/0224;G10L25/30 |
| 代理公司: | 南京睿之博知識產(chǎn)權代理有限公司 32296 | 代理人: | 劉菊蘭 |
| 地址: | 211167 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 麥克風 陣列 通道 注意力 加權 語音 增強 方法 | ||
1.一種面向麥克風陣列的通道注意力加權的語音增強方法,其特征在于,包括以下步驟:
S1:聲音采樣:通過兩個揚聲器分別播放純凈語音和噪聲,從麥克風陣列中的每個麥克風分別采集一路帶噪的語音時域信號;
S2:構建多通道語音增強模型:首先構建具有編碼器-解碼器結構的U-NET卷積神經(jīng)模型作為基線語音增強模型,在基線語音增強模型的基礎上結合多通道注意力機制,通過多通道注意力機制對基線語音增強模型中的通道維度信息進行加權,構建多通道語音增強模型;
S3:多通道語音增強模型預訓練:計算步驟S1中麥克風陣每路帶噪語音的短時傅里葉變換頻譜,作為多通道語音增強模型的輸入特征;計算揚聲器中播放的純凈語音的頻譜,然后結合每路帶噪語音的短時傅里葉變換頻譜計算純凈語音的壓縮復值理想比率掩模并通過多通道語音增強模型生成每路帶噪語音的估計的壓縮復值理想比率掩模其中,j為麥克風標號;通過聯(lián)合優(yōu)化估計每路麥克風的和的均方誤差MSE以及加權信號/失真比損失Weighted-SDR Loss來訓練多通道語音增強模型;
S4:采用多通道語音增強模型進行麥克風陣語音增強:將麥克風陣列采集的多路含噪語音輸入到多通道語音增強模型,并用該多通道語音增強模型實現(xiàn)麥克風陣列語音增強。
2.根據(jù)權利要求1所述的一種面向麥克風陣列的通道注意力加權的語音增強方法,其特征在于,所述步驟S2中基線語音增強模型的具體結構為:基線語音增強模型為包括4層編碼器和4層解碼器的卷積神經(jīng)網(wǎng)絡,每層編碼器以及每層解碼器之間包含一層通道注意力層,基線語音增強模型輸入信號,即麥克風陣中每組語音時域信號,其維度為F×T×2C,其中F為頻率維度,T為時間維度,C為通道維度,即麥克風總個數(shù)。
3.根據(jù)權利要求2所述的一種面向麥克風陣列的通道注意力加權的語音增強方法,其特征在于,所述每層編碼器包含依次連接的卷積層、批歸一化層和非線性層,編碼器通過下采樣擴展通道維度,所述每層編碼器輸出估計的特征;所述每層解碼器包含依次連接的卷積層、批歸一化層和非線性層,解碼器通過上采樣收縮通道維度,生成與輸入維度相同的每路帶噪語音的估計的壓縮復值理想比率掩模編碼器與解碼器之間具有相同的卷積層數(shù),編碼器與解碼器對應層之間通過跳躍連接將輸出與輸入在通道維度上進行堆疊。
4.根據(jù)權利要求1所述的一種面向麥克風陣列的通道注意力加權的語音增強方法,其特征在于,所述步驟S2中構建多通道語音增強模型的具體過程為:
S21、將多通道注意力機制引入基線語音增強模型中:將輸入的短時傅里葉變換頻譜在頻率維度劃分為m個子空間,隨機初始化若干組1×1卷積核,并與輸入的帶噪語音x∈RF×T×2C做卷積,得到鍵值矩陣K(x)、查詢矩陣Q(x)和數(shù)值矩陣V(x),其中,K(x)∈RF×d×2C,Q(x)∈RF×d×2C,V(x)∈RF×T×2C,d是1X1卷積的通道數(shù);
S22、計算注意力權值矩陣:所述鍵值矩陣K(x)、查詢矩陣Q(x)和數(shù)值矩陣V(x)均為可訓練的矩陣,通過計算查詢矩陣Q(x)和鍵值矩陣K(x)的相似度,來對所有的數(shù)值矩陣V(x)進行加權,通過K(x)和Q(x)計算注意力權值矩陣Ai∈RF×2C×2C,并與V(x)相乘,得到通道注意力層的輸出;其中,注意力權值矩陣Ai∈RF×2C×2C的計算公式為:
其中,i代表不同的子空間,通道注意力層的輸出為縮放點積模型;
S23、通過多通道注意力機制對基線語音增強模型中的通道維度信息進行加權,構建多通道語音增強模型:注意力層輸出在通道維度上與輸入進行級聯(lián),則最終輸出維度為F×T×4C,計算公式為:
O(K(x),Q(x),V(x))=Concat(A1,...,Am)V(x)
其中,O(K(x),Q(x),V(x))為通道注意力層的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京工程學院,未經(jīng)南京工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011028613.8/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





