[發明專利]基于改進自注意力機制與跨頻帶特征的音頻音源分離方法有效
| 申請號: | 202010048185.9 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111261186B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 李澤超;唐金輝;黃毅 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G10L21/028 | 分類號: | G10L21/028;G10L21/0272;G10L25/27;G06N3/08;G06N3/0464 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 馬魯晉 |
| 地址: | 210094 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 注意力 機制 頻帶 特征 音頻 音源 分離 方法 | ||
1.一種基于改進自注意力機制與跨頻帶特征的音頻音源分離方法,其特征在于,包括以下步驟:
步驟1,訓練集數據準備,所述訓練集數據包括混合音頻數據以及混合音頻數據中待分離的目標音源音頻數據;
步驟2,將訓練集中的音頻數據均轉換為音頻的時頻譜,記為全頻帶時頻譜;
步驟3,構建若干個滿足跨頻帶特征約束的劃分策略;具體包括:
假設全頻帶時頻譜為S∈Rn×m,其中n為所述短時傅里葉變換操作中頻率方向的采樣數,m為時間方向的幀數,定義符號G表示對應于全頻帶時頻譜S的頻帶離散區間;采用λ個劃分策略,將S劃分為復數個子頻帶時頻譜,λ>0;所述跨頻帶特征的定義包括:
定義第l個劃分策略對應的子頻帶時頻譜集合Cl:
式中,Cl為一個有序集合,且以LEFT(Gli)升序排序,LEFT(x)表示區間x的左端點值,Gli為表示Cl集合中的第i個子頻帶區間元素,ml表示Cl集合中元素的個數;
定義頻帶邊界集合Dl:
Dl={bli|bli=RIGHT(Gli),i=1,2...,ml-1}
式中,RIGHT(x)表示區間x的右端點值;
定義最小邊界重疊大小z∈N,N表示自然數集合;
基于上述定義構建服從以下跨頻帶特征約束的劃分策略:
對于
有bpi∈Gqj
同時對于
都有且bpi-LEFT(Gqj)≥z,RIGHT(Gqj)-bpi≥z
其中,1≤p≤λ,1≤i≤mp-1,q≠p,1≤q≤λ,1≤j≤mq,i′≠i,1≤i′≤mp-1;
步驟4,基于每個所述劃分策略分別對全頻帶時頻譜的頻帶進行劃分,獲得該劃分策略對應的若干子頻帶;
步驟5,基于每個所述劃分策略構建深度神經網絡;具體包括:
(1)對于每一個劃分策略,構建相應的卷積神經子網絡為:
式中,NETl表示第l個劃分策略對應的子卷積神經網絡集合,表示第l個劃分策略中的第i個子卷積神經網絡,i=1,2,…,ml,c表示構建卷積神經網絡所采用到的金字塔形式的下采樣或上采樣的次數,即尺度;其中,的結構定義為:
式中,Upsample(·)表示上采樣層,Concat(·)表示連接操作,Qk(I)=Downsample(DenseBlockk1(I)),k=1,2...c,k表示第k個尺度,Downsample(·)表示下采樣層,I表示子卷積神經網絡的輸入,Wk表示1x1卷積層,Attention(X)表示以平坦化特征圖X為輸入的改進的自注意力層,X={x1,x2,...,xN}∈RC×N,N=W×H,C、W、H分別表示在平坦化之前特征圖X在不同維度上的尺寸大小,α為一個可訓練的標量,其初始值為0,DenseBlock*(·)表示DenseNet中的Dense?Block,其中“*”為0或k1;
其中,
Attention(X)=Res(β1s+β2cT+X)∈RC×W×H
式中,Res(·)表示重塑操作,也即是維度變換操作,β1和β2均為可訓練的標量變量,初始值為0,用于指示注意力特征的可信度;s表示空間注意力特征圖,s∈RC×N={s1,s2,...,sN},c表示通道注意力特征圖,c∈RN×C={c1,c2,...,cC},其中si、ci′分別為:
式中,以及均表示1x1卷積層,
(2)構建處理全頻帶時頻譜的卷積神經網絡該網絡的結構與上述的結構相同,但該網絡的輸入為全頻帶時頻譜;
步驟6,訓練所述深度神經網絡;具體包括:
將步驟2獲得的混合音頻數據對應的時頻譜作為深度神經網絡的輸入,將步驟2獲得的待分離的目標音源音頻數據對應的時頻譜作為深度神經網絡的輸出目標,對深度神經網絡進行訓練;
步驟7,訓練最小方差濾波器;具體包括:
步驟7-1,提取訓練集中所述混合音頻數據對應的時頻譜中的相位信號;
步驟7-2,將每個劃分策略對應的若干子頻帶作為該劃分策略對應的卷積神經子網絡的輸入,并合并所有卷積神經子網絡的輸出特征:
式中,Os表示所有卷積神經子網絡輸出s特征的合并結果,Merge(·)表示特征融合操作,γt為可訓練的標量,初始值為0,t=2...λ,γ1也為可訓練的標量,其初始值為1,Ol為每一個卷積神經子網絡的輸出:
式中,Slr表示子頻帶區間Glr對應的子頻帶時頻譜,Concatfrequency(·)表示在頻率維度上進行特征連接;
步驟7-3,將所述全頻帶時頻譜作為所述卷積神經網絡的輸入,該卷積神經網絡的輸出特征記為Of;
步驟7-4,根據所述Os和Of獲取跨頻帶特征O:
O=Concatchannel(Of,Os)
式中,Concatchannel(·)表示在通道維度上進行特征連接;
步驟7-5,利用Dense?Block和卷積層將所述跨頻帶特征O轉換為預測時頻譜;
步驟7-6,通過短時傅里葉逆變換將所述預測時頻譜轉換為音頻信號,在轉換過程中時頻譜的相位部分采用步驟7-1提取的相位信號;
步驟7-7,將步驟7-6獲得的音頻信號作為最小方差濾波器的輸入,將訓練集中待分離的目標音源音頻數據作為期望信號,對最小方差濾波器進行訓練;
步驟8,利用步驟6訓練后的深度神經網絡和步驟7訓練后的最小方差濾波器處理待進行音源分離的混合音頻,輸出預測的目標音頻信號;具體過程包括:
步驟8-1,通過短時傅里葉變換將待進行音源分離的混合音頻轉換為時頻譜,并提取該時頻譜中的相位信號;
步驟8-2,將步驟8-1獲得的時頻譜輸入至步驟6訓練后的深度神經網絡,輸出目標音源信號的時頻譜;
步驟8-3,通過短時傅里葉逆變換將所述目標音源信號的時頻譜轉換為音頻信號,轉換過程中時頻譜的相位部分采用步驟8-1提取的相位信號;
步驟8-4,將步驟8-3獲得的音頻信號輸入至步驟7訓練后的最小方差濾波器中,輸出最終的目標音頻信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010048185.9/1.html,轉載請聲明來源鉆瓜專利網。





