[發明專利]一種目標聲源鎖定和提取的方法在審
| 申請號: | 202011042009.0 | 申請日: | 2020-09-28 |
| 公開(公告)號: | CN112259117A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 葉劍豪;瞿虎林;周偉林 | 申請(專利權)人: | 上海聲瀚信息科技有限公司 |
| 主分類號: | G10L21/0272 | 分類號: | G10L21/0272;G10L21/0208;G10L25/18;G10L25/21;G10L25/30;G10L25/78;G10L25/87;G10L15/20 |
| 代理公司: | 北京化育知識產權代理有限公司 11833 | 代理人: | 尹均利 |
| 地址: | 200120 上海市浦東新區中國(上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 目標 聲源 鎖定 提取 方法 | ||
1.一種目標聲源鎖定和提取的方法,其特征在于:
1)使用基于輔助函數的窗移獨立向量分析;
2)在分離后的多通道聲源中選擇目標聲源;
3)基于分離后聲源相對空間信息的純干擾聲源段檢測和消除;
4)使用基于DNN的VAD算法進行最終目標聲源語音段提取。
2.如權利要求1所述的一種目標聲源鎖定和提取的方法,其特征在于,1)使用基于輔助函數的窗移獨立向量分析,具體為:
步驟1)將M個麥克風采集到的包含M個源信號的混合信號xm(n),1≤m≤M進行短時傅里葉變換,得到其頻域表示x(ω,τ),其中ω和τ分別為頻率和時間索引,總的頻段數為K;并初始化盲分離矩陣W(ω,τ);
步驟2)累積得到Lb幀混合信號的頻域表示X(ω,τ),并使用W(ω,τ)對其進行分離,得到估計的包含M個源的信號Y(ω,τ),即Y(ω,τ)=X(ω,τ)W(ω,τ),Y(ω,τ)為Mx1的向量;
步驟3)依據公式(1)和公式(2)更新輔助函數Vm(ω;τ);
式(1)中,α(0≤α≤1)是遺忘因子,Lb為塊大小;
步驟4)依據公式(3)和公式(4)更新盲分離矩陣W(ω,τ),式(3)中ek表示一個列向量,其中第k個元素為1,其余為0;
wm(ω;τ)←(W(ω;τ)Vm(ω;τ))-1em (3)
步驟2)、3)和4)按算法1所示進行迭代計算W(ω,τ)和分離M路聲源得到最終的Y(ω,τ)。
算法1:Block-Online的AuxIVA更新規則;
for τ=1 to Nτ do;
更新源分離矩陣:W(ω;τ)=W(ω;τ-1);
for n=1 to N do;
for m=1 to M do;
公式(1)更新rk(τ)(如步驟3));
for ω=1 to Nω do;
更新輔助變量Vk(ω;τ)(如步驟3))和盲矩陣更新(如步驟4));
end for
end for
end for
end for。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海聲瀚信息科技有限公司,未經上海聲瀚信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011042009.0/1.html,轉載請聲明來源鉆瓜專利網。





