[發明專利]聲源定位方法、裝置、可讀存儲介質及電子設備有效
| 申請號: | 201911373874.0 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111161757B | 公開(公告)日: | 2021-09-03 |
| 發明(設計)人: | 莫凡;孫玨;劉士杰 | 申請(專利權)人: | 鎂佳(北京)科技有限公司 |
| 主分類號: | G10L25/48 | 分類號: | G10L25/48;G10L25/18;G10L21/028;G01S5/24 |
| 代理公司: | 北京臻之知識產權代理有限公司 11629 | 代理人: | 趙福梅 |
| 地址: | 100012 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聲源 定位 方法 裝置 可讀 存儲 介質 電子設備 | ||
本公開涉及一種聲源定位方法、裝置、可讀存儲介質及電子設備。該方法包括:從N個麥克風中獲取目標音頻信號,其中,每一所述麥克風設置在不同位置,N為大于等于3的整數;從N條所述目標音頻信號中提取多維度音頻特征;根據所述多維度音頻特征和預先訓練的聲源定位模型,確定所述目標音頻的聲源位置。如此,基于聲源定位模型確定目標音頻的聲源位置,可以提高確定聲源位置的準確度。并且,通過多維度音頻特征確定聲源位置,相較于現有技術僅通過相位差確定聲源位置,進一步提高了所確定的聲源位置的準確度,以及魯棒性。
技術領域
本公開涉及定位技術領域,具體地,涉及一種聲源定位方法、裝置、可讀存儲介質及電子設備。
背景技術
聲源定位是指聽覺(聲學)系統對發聲物體位置的判斷過程。通過聲源定位可以準確識別出發聲物體所在的位置。目前的聲源定位多是將多個麥克風按照一定順序布設在空間的不同位置,并通過對各個麥克風接收的音頻信號進行處理,最終根據計算得出聲源的最終位置。
在傳統聲源定位方法中,需要先計算至少三條音頻信號到達麥克風的相位差(即,音頻信號達到不同麥克風之間的時間差),再算出根據相位差所得的雙曲線的交點坐標,即可完成定位。但由于相位差是根據兩個麥克風采集到的音頻信號的互相關關系所得,不同聲源的互相關關系存在一定的差異,導致定位不夠準確。
發明內容
本公開的目的是提供一種聲源定位方法、裝置、可讀存儲介質及電子設備,以提高聲源定位的準確性和魯棒性。
為了實現上述目的,本公開第一方面提供一種聲源定位方法,包括:
從N個麥克風中獲取目標音頻信號,其中,每一所述麥克風設置在不同位置,N為大于等于3的整數;
從N條所述目標音頻信號中提取多維度音頻特征;
根據所述多維度音頻特征和預先訓練的聲源定位模型,確定所述目標音頻的聲源位置。
可選地,所述根據所述多維度音頻特征和預先訓練的聲源定位模型,確定所述目標音頻的聲源位置,包括:
將所述多維度音頻特征輸入至預先訓練的聲源定位模型,以得到針對各位置的第一位置概率,其中,所述位置的數量大于等于2,所述第一位置概率用于表征其對應的位置為所述目標音頻的聲源位置的概率;
在多個所述第一位置概率中,將最大第一位置概率對應的位置確定為所述目標音頻的聲源位置。
可選地,所述從N條所述目標音頻信號中提取多維度音頻特征,包括:
針對各條目標音頻信號,將該條目標音頻信號劃分為M幀音頻信號;
從N個M幀音頻信號中,提取多維度音頻特征。
可選地,所述從N個M幀音頻信號中,提取多維度音頻特征,包括:
在每條目標音頻信號中,確定各幀音頻信號的能量值;
針對同一幀音頻信號,均執行以下步驟:
在每兩條目標音頻信號中確定該幀音頻信號的相位差,以及,根據每兩條目標音頻信號中的該幀音頻信號的能量值,確定該兩條目標音頻信號中的該幀音頻信號的能量差;
根據該幀音頻信號的所述相位差、所述能量值以及所述能量差,確定該幀音頻信號的音頻特征。
可選地,所述將所述多維度音頻特征輸入至預先訓練的聲源定位模型,以得到針對各位置的第一位置概率,包括:
針對同一幀音頻信號,將該幀音頻信號的多維度音頻特征輸入至預先訓練的聲源定位模型,以得到所述聲源定位模型輸出的該幀音頻信號的針對各位置的第二位置概率;
根據M個針對同一位置的第二位置概率,確定所述目標音頻的針對該位置的第一位置概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鎂佳(北京)科技有限公司,未經鎂佳(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911373874.0/2.html,轉載請聲明來源鉆瓜專利網。





