[發(fā)明專利]一種基于深度學習的雙通道聲源定位方法有效
| 申請?zhí)枺?/td> | 202010099231.8 | 申請日: | 2020-02-18 |
| 公開(公告)號: | CN111239686B | 公開(公告)日: | 2021-12-21 |
| 發(fā)明(設計)人: | 李軍鋒;程龍彪;夏日升;顏永紅 | 申請(專利權)人: | 中國科學院聲學研究所 |
| 主分類號: | G01S5/20 | 分類號: | G01S5/20;G06N3/04;G06N3/08 |
| 代理公司: | 北京億騰知識產(chǎn)權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 雙通道 聲源 定位 方法 | ||
本發(fā)明公開了一種基于深度學習的雙通道聲源定位方法,包括:對左通道和右通道的麥克風拾取數(shù)據(jù)分別進行分幀、加窗和傅里葉變換,得到第一通道和第二通道的時頻域拾取信號;利用深度學習從時頻域拾取信號和其對應的時頻域直達聲信號中估計出相位敏感掩蔽,利用相位敏感掩蔽指導聲源方向信息的估計,利用相位敏感掩蔽計算方向信息估計的準確性,利用深度學習從估計的方向信息和方向信息估計準確性中獲得方向信息增強值,利用增強后的方向信息與方向信息估計的準確性構(gòu)建加權直方圖,最終選取直方圖峰值所對應的方向作為聲源方向。本發(fā)明從雙通道麥克風拾取數(shù)據(jù)中估計出聲源的方向,充分利用神經(jīng)網(wǎng)絡的泛化能力,對噪聲混響環(huán)境具有更好的魯棒性。
技術領域
本發(fā)明涉及聲源定位技術領域,尤其涉及一種基于深度學習的雙通道聲源定位方法。
背景技術
目前,聲源定位技術主要是從麥克風陣列拾取的含有背景噪聲和混響的數(shù)據(jù)中估計聲源的方位,從而在聲源分離、聲源跟蹤等方面取得更好的表現(xiàn)。在以方位為輸出的聲源定位技術中,通過利用信號空間與噪聲空間的正交性可以估計出聲源的方位,但是這類算法在混響存在時性能下降明顯。利用深度學習,可以更好的提升算法在噪聲及混響存在時的魯棒性。大多數(shù)基于深度學習的聲源定位算法把聲源定位當作一個分類問題,利用神經(jīng)網(wǎng)絡從劃分好的區(qū)域中估計聲源的位置。這種算法定位準確度與區(qū)域劃分有關,且定位精度需求改變時,神經(jīng)網(wǎng)絡需要重新訓練。
發(fā)明內(nèi)容
本發(fā)明的目的在于,解決現(xiàn)有聲源定位技術存在的上述缺陷。
為達到上述目的,本發(fā)明公開了一種基于深度學習的雙通道聲源定位方法,包括步驟:
對每個通道的麥克風拾取數(shù)據(jù)分別進行分幀、加窗和傅里葉變換,得到每通道的時頻域拾取信號;雙通道時頻域信號中包含聲源位置的信息;
對第一通道的時頻域拾取信號的對數(shù)功率譜和通道間相位差進行組合得到第一通道的輸入特征;對第二通道的時頻域拾取信號的對數(shù)功率譜和通道間相位差進行組合得到第二通道的輸入特征;
利用第一通道的時頻域拾取信號和其對應的時頻域直達聲信號計算得到第一通道的相位敏感掩蔽估計值;利用第二通道的時頻域拾取信號和其對應的時頻域直達聲信號計算得到第二通道的相位敏感掩蔽估計值;
使用每一通道的輸入特征和其對應的理論相位敏感掩蔽對神經(jīng)網(wǎng)絡進行訓練得到相位敏感掩蔽的估計模型;
將第一通道的輸入特征作為估計模型的輸入,輸出第一通道的相位敏感掩蔽估計值;將第二通道的輸入特征作為概率估計模型的輸入,輸出第二通道的相位敏感掩蔽的估計值;
使用每一通道時頻域拾取信號和每一通道時頻域相位敏感掩蔽估計值一起計算語音協(xié)方差矩陣;
對語音協(xié)方差矩陣進行特征值分解,獲取其主特征向量作為聲源的導向矢量;
對導向矢量的兩個元素取其相角差作為方向信息;
利用兩通道相位敏感掩蔽估計值計算每個時頻點方向信息估計準確性;
利用聲源到達麥克風的時間差計算兩個麥克風拾取數(shù)據(jù)的理想相位差作為目標方向信息;
使用方向信息、方向信息估計準確性和目標方向信息對神經(jīng)網(wǎng)絡進行訓練得到方向信息增強模型;
將方向信息和方向信息估計準確性作為方向信息增強模型的輸入,輸出為增強的方向信息;
使用增強的方向信息在每個時頻點處計算聲源方向;
利用方向特征估計準確性和所有時頻點處的方向信息構(gòu)建加權統(tǒng)計直方圖。
利用加權直方圖,選取統(tǒng)計結(jié)果最大的方向作為聲源方向。
優(yōu)選地,對每個通道的麥克風拾取數(shù)據(jù)分別進行分幀、加窗和傅里葉變換的具體步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所,未經(jīng)中國科學院聲學研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010099231.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





