[發(fā)明專利]協(xié)同雙通道時頻掩碼估計任務學習的雙耳聲源定位方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011096916.3 | 申請日: | 2020-10-14 |
| 公開(公告)號: | CN112731291A | 公開(公告)日: | 2021-04-30 |
| 發(fā)明(設計)人: | 丁潤偉;吳璐璐;楊冰;劉宏 | 申請(專利權)人: | 深港產學研基地(北京大學香港科技大學深圳研修院);北京大學深圳研究生院 |
| 主分類號: | G01S5/22 | 分類號: | G01S5/22;G06N3/04 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 518057 廣東省深圳市南山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 協(xié)同 雙通道 掩碼 估計 任務 學習 聲源 定位 方法 系統(tǒng) | ||
1.一種協(xié)同雙通道時頻掩碼估計任務學習的雙耳聲源定位方法,其特征在于,包括以下步驟:
使用雙耳麥克風信號的對數(shù)頻譜作為輸入,對數(shù)維納濾波器作為目標時頻掩碼,訓練基于卷積神經網絡的雙通道時頻掩碼估計網絡;
將雙通道時頻掩碼估計網絡估計得到的時頻掩碼與對數(shù)頻譜特征相乘,得到增強后的對數(shù)頻譜特征;
利用增強后的對數(shù)頻譜特征及相位譜特征作為輸入,訓練基于卷積神經網絡的多方位角估計網絡;
協(xié)同雙通道時頻掩碼估計網絡和多方位角估計網絡,形成端到端的雙耳聲源定位模型;
將雙耳麥克風信號的短時傅里葉變換的對數(shù)頻譜圖和相位譜作為輸入,利用訓練好的雙耳聲源定位模型估計多聲源方位角。
2.如權利要求1所述的方法,其特征在于,所述目標時頻掩碼表示為:
其中,ηm(t,f)表示目標時頻掩碼;代表直達路徑上的頭相關傳遞函數(shù);N為目標聲源個數(shù),t表示雙耳信號分幀后的第t幀,f表示雙耳信號經過傅立葉變換后的頻帶;Si(t,f)表示原始聲源信號的短時傅立葉變換;Um(t,f)代表其他干擾噪聲,也包括早期混響和晚期混響:
其中,表示除了直達路徑的早期和晚期混響的頭相關傳遞函數(shù)。
3.如權利要求2所述的方法,其特征在于,所述雙通道時頻掩碼估計網絡利用卷積神經網絡同時學習多個通道信號之間的空間信息,以提升雙耳信號增強和定位特征增強的性能;所述雙通道時頻掩碼估計網絡使用估計的時頻掩碼和目標時頻掩碼之間的均方誤差訓練參數(shù),均方誤差表示為:
其中,T表示信號時間幀數(shù),F(xiàn)表示信號的頻帶數(shù),表示預測的時頻掩碼。
4.如權利要求3所述的方法,其特征在于,所述多方位角估計網絡使用類高斯函數(shù)編碼的方位角概率作為目標值;類高斯函數(shù)編碼的方位角概率為:
其中,oi∈I表示類高斯函數(shù)編碼的方位角概率;I表示方位角類別數(shù);θj為第j個目標聲源的方位角,d(θi-θj)表示兩個方位角之間的角距離;σ是限制的容忍角距離,表示與任一目標聲源的角距離在此容忍角距離內的相鄰方位角具有大于0的概率,超過此容忍角距離的方位角的概率為0。
5.如權利要求4所述的方法,其特征在于,所述多方位角估計網絡使用估計的方位角概率分布與目標方位角概率分布之間的均方誤差訓練參數(shù),均方誤差表示為:
其中,p(θ)表示真實方位角的概率值,表示預測的方位角的概率值。
6.如權利要求5所述的方法,其特征在于,所述協(xié)同雙通道時頻掩碼估計網絡和多方位角估計網絡,作為端到端微調階段,與雙通道時頻掩碼估計網絡、多方位角估計網絡的單獨訓練階段合在一起稱為兩階段訓練過程;第一階段訓練過程中雙通道時頻掩碼估計網絡的訓練損失為LossTF,第一階段訓練過程中多方位角估計網絡的訓練損失為LossDOA,第二階段端到端微調過程中的損失表示為:Loss=LossTF+LossDOA。
7.如權利要求6所述的方法,其特征在于,在線定位時,所述雙耳聲源定位模型估計出聲源方位角的概率值之后,使用以下邏輯解碼以得到多聲源的方位角
其中,聲源的最大個數(shù)N是已知的,ξ表示概率閾值;該解碼公式表示選取容忍距離內概率大于閾值的方位角,若存在概率大于閾值的方位角,則被放入方位角候選集,最終的方位角估計只選取候選集中概率最大的N個方位角作為多聲源的方位角,即
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深港產學研基地(北京大學香港科技大學深圳研修院);北京大學深圳研究生院,未經深港產學研基地(北京大學香港科技大學深圳研修院);北京大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011096916.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶全息投影地勢掃描功能的桿塔監(jiān)測裝置
- 下一篇:顯示設備
- 移動通信終端的協(xié)同方法及其界面系統(tǒng)
- 業(yè)務協(xié)同流程配置、業(yè)務協(xié)同方法及裝置
- 一種基于健康檔案共享平臺的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
- 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
- 基于協(xié)同網關的跨域協(xié)同交互方法
- 一種生產協(xié)同管理方法及系統(tǒng)
- 云邊協(xié)同方法、裝置、系統(tǒng)、設備和介質
- 一種智能辦公協(xié)同操作方法及系統(tǒng)
- 一種用于無人裝備的時間協(xié)同航跡規(guī)劃方法
- 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)
- 一種集群系統(tǒng)中長碼掩碼的生成方法
- 正交掩碼生成裝置和方法及正交掩碼映射裝置和方法
- 打包數(shù)據(jù)操作掩碼比較處理器、方法、系統(tǒng)
- 用于獨立數(shù)據(jù)上遞歸計算的向量化的讀和寫掩碼更新指令
- 用于合并操作掩碼的未經掩碼元素的裝置、方法、系統(tǒng)和制品
- 一種掩碼處理方法及客戶端
- DES軟件防DPA攻擊的方法及裝置
- 一種對數(shù)據(jù)庫信息進行動態(tài)掩碼的方法及系統(tǒng)
- 用于獨立數(shù)據(jù)上遞歸計算的向量化的讀和寫掩碼更新指令
- 聯(lián)邦學習隱私數(shù)據(jù)處理方法、設備、系統(tǒng)及存儲介質





