[發明專利]協同雙通道時頻掩碼估計任務學習的雙耳聲源定位方法及系統在審
| 申請號: | 202011096916.3 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112731291A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 丁潤偉;吳璐璐;楊冰;劉宏 | 申請(專利權)人: | 深港產學研基地(北京大學香港科技大學深圳研修院);北京大學深圳研究生院 |
| 主分類號: | G01S5/22 | 分類號: | G01S5/22;G06N3/04 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 協同 雙通道 掩碼 估計 任務 學習 聲源 定位 方法 系統 | ||
本發明公開了一種協同雙通道時頻掩碼估計任務學習的雙耳聲源定位方法及系統。該方法為:1)使用雙耳信號的短時傅里葉變換系數作為輸入特征;2)使用對數維納濾波作為目標時頻掩碼,同時估計雙通道對數頻譜特征的時頻掩碼;3)將估計得到的時頻掩碼與對數頻譜特征相乘,得到增強后的對數頻譜特征;4)利用增強后的對數頻譜特征及相位譜特征作為輸入,估計聲源的方位角;5)利用兩階段訓練模式,在初步訓練好的雙通道時頻掩碼估計網絡和聲源定位網絡之間建立端到端的聯系,微調所有網絡參數。本發明能夠利用卷積神經網絡同時估計雙通道時頻掩碼,提升定位特征的魯棒性,并且利用時頻掩碼增強后的定位特征實現有效的端到端的聲源定位。
技術領域
本發明屬于音頻信號處理和計算機聽覺技術領域,具體涉及一種適用于在存在噪聲、混響、多聲源環境下的雙耳麥克風聲源定位方法及系統,通過卷積神經網絡學習雙通道信號的空間信息,同時估計雙通道時頻掩碼,能夠增強雙耳信號和雙耳定位特征,并且將雙通道時頻掩碼增強后的定位特征作為定位模型的輸入,能夠協同雙通道時頻掩碼估計任務學習端到端的聲源定位模型。
背景技術
在人類日常生活的交互中,人們感知外界信息的主要方式有視覺、聽覺、觸覺、嗅覺和味覺等等。其中,人類通過視覺來獲取的信息約占70%-80%,通過聽覺獲取的信息約占10%-20%。聽覺感知是人們與外界進行信息交流的最自然、方便、直接有效的方式之一。相對于視覺、觸覺等,聽覺具有全向性和衍射性,能夠不受方位和物理結構(如墻壁)的限制,可以在被障礙物遮蔽的情況下依然有效地接收聲音信號。機器人聽覺系統包括聲源信號的定位與跟蹤、聲源分離與分類、說話人識別、語音識別、語音情感識別等功能。機器人聽覺聲源定位指的是利用搭載在機器人系統上的麥克風設備定位出聲源相對于麥克風設備的位置,包括水平角、俯仰角和距離。作為語音信號處理的基礎前端任務,機器人聽覺聲源定位可以為其他語音信號處理任務提供空間輔助信息。利用少量的麥克風估計聲源的位置是實現實用機器人聽覺系統的一個重要目標,聲源定位技術在人機交互、語音分離、語音增強、會議系統中有著廣泛的應用。隨著智能科學技術的發展,人們對機器人智能化程度的要求不斷提高,具有多模態感官的智能機器人逐漸成為學術界和工業界研究的熱點。聽覺系統作為智能機器人系統的重要組成部分,已成為人工智能領域的重要研究課題之一。然而,針對機器人聽覺系統的聲源定位研究較少,現如今仍然存在著許多研究難點,如聲學環境的復雜性,強噪聲和強混響的聲學環境,多聲源干擾等等。因此,聲源定位技術在智能機器人領域具有重要的應用價值和研究意義。為了提升雙耳聲源定位在噪聲、混響和多聲源環境下的性能,學者們提出了許多雙耳聲源定位的方法。
根據麥克風數量以及是否具有機器人工頭的耳廓結構,聲源定位技術可以粗略地分為基于麥克風陣列的聲源定位和基于雙耳麥克風的聲源定位。麥克風陣列可以搭載在機器人身上,也可以分散在環境中各個角落。常見的麥克風陣列類別有:立方體麥克風陣列、線性麥克風陣列、柱形麥克風陣列等等。雙耳麥克風則搭載在人工頭或機器人頭部的耳廓結構中。基于雙耳麥克風的聲源定位充分利用了仿真的人耳聽覺特性,即由頭部陰影效應和耳廓的衍射及散射效應帶來的聲譜特性。由于人工頭的前后對稱性,人工頭的前后聲源容易造成混淆,而耳廓的存在為區分聲源前后向提供了有利條件。
雙耳聲源定位一般包括提取雙耳定位特征和在線定位兩個階段。傳統的定位特征包括雙耳時間差、雙耳能量差,它們分別表示聲源到達雙耳麥克風時的時間差異和能量差異。在線定位方法主要有模板匹配、高斯混合模型、深度神經網絡等等。為了提升雙耳定位特征在噪聲和混響環境下的魯棒性,也有研究提出使用時頻掩碼選擇可靠的時頻單元,并在這些單元內計算雙耳定位特征。實際上,經過語音信號處理之后,雙耳聲源定位任務是一個模式識別問題,現有的雙耳聲源定位系統包括以下步驟:
1、利用麥克風接收信號,對麥克風信號進行預濾波。雙耳聲源定位中常用Gammatone濾波器對麥克風信號進行濾波,Gammatone濾波器組是一種標準的耳蝸聽覺濾波器組,各個濾波器的帶寬從低頻到高頻由窄變寬。Gammatone濾波器組只需要較少的參數就能很好地模擬人耳聽覺系統的生理數據,并且充分體現基底膜尖銳的濾波特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深港產學研基地(北京大學香港科技大學深圳研修院);北京大學深圳研究生院,未經深港產學研基地(北京大學香港科技大學深圳研修院);北京大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011096916.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶全息投影地勢掃描功能的桿塔監測裝置
- 下一篇:顯示設備





