[發(fā)明專利]一種基于深度學習的雙通道聲源定位方法有效

申請?zhí)枺?/td>	202010099231.8	申請日：	2020-02-18
公開（公告）號：	CN111239686B	公開（公告）日：	2021-12-21
發(fā)明（設計）人：	李軍鋒;程龍彪;夏日升;顏永紅	申請（專利權）人：	中國科學院聲學研究所
主分類號：	G01S5/20	分類號：	G01S5/20;G06N3/04;G06N3/08
代理公司：	北京億騰知識產(chǎn)權代理事務所(普通合伙) 11309	代理人：	陳霽
地址：	100190 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于深度學習雙通道聲源定位方法
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種基于深度學習的雙通道聲源定位方法，包括：對左通道和右通道的麥克風拾取數(shù)據(jù)分別進行分幀、加窗和傅里葉變換，得到第一通道和第二通道的時頻域拾取信號；利用深度學習從時頻域拾取信號和其對應的時頻域直達聲信號中估計出相位敏感掩蔽，利用相位敏感掩蔽指導聲源方向信息的估計，利用相位敏感掩蔽計算方向信息估計的準確性，利用深度學習從估計的方向信息和方向信息估計準確性中獲得方向信息增強值，利用增強后的方向信息與方向信息估計的準確性構(gòu)建加權直方圖，最終選取直方圖峰值所對應的方向作為聲源方向。本發(fā)明從雙通道麥克風拾取數(shù)據(jù)中估計出聲源的方向，充分利用神經(jīng)網(wǎng)絡的泛化能力，對噪聲混響環(huán)境具有更好的魯棒性。

技術領域

本發(fā)明涉及聲源定位技術領域，尤其涉及一種基于深度學習的雙通道聲源定位方法。

背景技術

目前，聲源定位技術主要是從麥克風陣列拾取的含有背景噪聲和混響的數(shù)據(jù)中估計聲源的方位，從而在聲源分離、聲源跟蹤等方面取得更好的表現(xiàn)。在以方位為輸出的聲源定位技術中，通過利用信號空間與噪聲空間的正交性可以估計出聲源的方位，但是這類算法在混響存在時性能下降明顯。利用深度學習，可以更好的提升算法在噪聲及混響存在時的魯棒性。大多數(shù)基于深度學習的聲源定位算法把聲源定位當作一個分類問題，利用神經(jīng)網(wǎng)絡從劃分好的區(qū)域中估計聲源的位置。這種算法定位準確度與區(qū)域劃分有關，且定位精度需求改變時，神經(jīng)網(wǎng)絡需要重新訓練。

發(fā)明內(nèi)容

本發(fā)明的目的在于，解決現(xiàn)有聲源定位技術存在的上述缺陷。

為達到上述目的，本發(fā)明公開了一種基于深度學習的雙通道聲源定位方法，包括步驟：

對每個通道的麥克風拾取數(shù)據(jù)分別進行分幀、加窗和傅里葉變換，得到每通道的時頻域拾取信號；雙通道時頻域信號中包含聲源位置的信息；

對第一通道的時頻域拾取信號的對數(shù)功率譜和通道間相位差進行組合得到第一通道的輸入特征；對第二通道的時頻域拾取信號的對數(shù)功率譜和通道間相位差進行組合得到第二通道的輸入特征；

利用第一通道的時頻域拾取信號和其對應的時頻域直達聲信號計算得到第一通道的相位敏感掩蔽估計值；利用第二通道的時頻域拾取信號和其對應的時頻域直達聲信號計算得到第二通道的相位敏感掩蔽估計值；

使用每一通道的輸入特征和其對應的理論相位敏感掩蔽對神經(jīng)網(wǎng)絡進行訓練得到相位敏感掩蔽的估計模型；

將第一通道的輸入特征作為估計模型的輸入，輸出第一通道的相位敏感掩蔽估計值；將第二通道的輸入特征作為概率估計模型的輸入，輸出第二通道的相位敏感掩蔽的估計值；

使用每一通道時頻域拾取信號和每一通道時頻域相位敏感掩蔽估計值一起計算語音協(xié)方差矩陣；

對語音協(xié)方差矩陣進行特征值分解，獲取其主特征向量作為聲源的導向矢量；

對導向矢量的兩個元素取其相角差作為方向信息；

利用兩通道相位敏感掩蔽估計值計算每個時頻點方向信息估計準確性；