[發明專利]基于時頻掩蔽和深度神經網絡的聲源方向估計方法及裝置有效
| 申請號: | 201811009529.4 | 申請日: | 2018-08-31 |
| 公開(公告)號: | CN109839612B | 公開(公告)日: | 2022-03-01 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 大象聲科(深圳)科技有限公司 |
| 主分類號: | G01S3/802 | 分類號: | G01S3/802 |
| 代理公司: | 深圳市德錦知識產權代理有限公司 44352 | 代理人: | 丁敬偉 |
| 地址: | 518000 廣東省深圳市南山區粵海街道高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 掩蔽 深度 神經網絡 聲源 方向 估計 方法 裝置 | ||
1.一種基于時頻掩蔽和深度神經網絡的聲源方位估計方法,其特征在于,所述方法包括:
獲取多通道聲音信號;
對所述多通道聲音信號中的每一通道聲音信號進行分幀、加窗和傅里葉變換,形成所述多通道聲音信號的短時傅里葉頻譜;
通過預先訓練的神經網絡模型對所述短時傅里葉譜進行迭代運算,計算所述多通道聲音信號中目標信號對應的比值膜;
將多個比值膜融合形成單一比值膜;
通過所述單一比值膜對多通道聲音信號進行掩蔽加權,確定目標聲源的方位;通過所述單一比值膜對多通道聲音信號進行掩蔽加權的步驟包括:使用多通道輸入信號的短時傅里葉譜計算廣義互相關函數;采用所述單一比值膜對所述廣義互相關函數進行掩蔽;將掩蔽后的廣義互相關函數沿頻率和時間進行加和,選取加和互相關函數最大峰值位對應的方向作為目標聲源的方位。
2.根據權利要求1所述的方法,其特征在于,所述通過預先訓練的神經網絡模型對所述短時傅里葉譜進行迭代運算,計算所述多通道聲音信號中目標信號對應的比值膜的步驟包括:
通過預先訓練的神經網絡模型對各通道聲音信號的短時傅里葉譜進行迭代運算,分別計算所述多通道聲音信號中各通道聲音信號對應的比值膜。
3.根據權利要求2所述的方法,其特征在于,所述通過預先訓練的神經網絡模型對各通道聲音信號的短時傅里葉譜進行迭代運算,分別計算所述多通道聲音信號中各通道聲音信號對應的比值膜的步驟包括:
以直達聲或混響語音信號為目標,采用具有長短期記憶的深度遞歸神經網絡模型分別計算所述多通道聲音信號中各單通道目標信號對應的比值膜。
4.根據權利要求1所述的方法,其特征在于,所述將多個比值膜融合,形成單一比值膜的步驟包括:
將多通道聲音信號中目標信號所產生的比值膜,在相應時頻單元上進行累乘。
5.根據權利要求1所述的方法,其特征在于,所述通過所述單一比值膜對多通道聲音信號進行掩蔽加權的步驟包括:
在每個時頻單元中,計算所述多通道聲音信號短時傅里葉譜的協方差矩陣;
采用所述單一比值膜對所述協方差矩陣進行掩蔽,在每個單獨的頻率上,對掩蔽的協方差矩陣沿時間維度加和,分別得到目標語音和噪聲在不同頻率上的協方差矩陣;
依據麥克風陣列的拓撲結構,計算候選方向在不同頻率上的導向矢量;
根據所述噪聲協方差矩陣和候選導向矢量,計算不同頻率上MVDR波束成形的濾波器系數;
采用所述波束成形的濾波器系數和目標語音協方差矩陣計算不同頻率上目標語音的能量,采用所述波束成形的濾波器系數和噪聲協方差矩陣計算不同頻率上噪聲的能量;
在不同頻率上,計算目標語音和噪聲的能量比,并沿頻率維度加和,形成在某一候選方向上的總體信噪比;
選擇對應總體信噪比最大的候選方向作為目標聲源的方位。
6.根據權利要求5所述的方法,其特征在于,通過所述單一比值膜對多通道聲音信號進行掩蔽加權的步驟包括:
在不同頻率上,對所述目標語音協方差矩陣采用特征分解,選取特征值最大的對應特征向量作為目標語音的導向矢量;
采用所述目標語音的導向矢量計算麥克風信號之間的到達時間差;
根據麥克風陣列拓撲結構計算候選方向在麥克風之間的到達時間差;
計算所述麥克風信號之間到達時間差和所述候選方向在麥克風之間到達時間差之間的余弦距離;
選擇對應最大余弦距離的候選方向作為目標聲源的方位。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大象聲科(深圳)科技有限公司,未經大象聲科(深圳)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811009529.4/1.html,轉載請聲明來源鉆瓜專利網。





