[發(fā)明專利]聲音事件檢測與定位方法、裝置、設(shè)備及可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011446660.4 | 申請日: | 2020-12-11 |
| 公開(公告)號: | CN112581978A | 公開(公告)日: | 2021-03-30 |
| 發(fā)明(設(shè)計)人: | 羅劍;王健宗;程寧 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/30;G10L19/02;G01S5/18;G06F17/15;G06F17/16;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市力道知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44507 | 代理人: | 賀小旺 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 聲音 事件 檢測 定位 方法 裝置 設(shè)備 可讀 存儲 介質(zhì) | ||
1.一種聲音事件檢測與定位方法,其特征在于,應(yīng)用于電子設(shè)備,所述電子設(shè)備包括麥克風(fēng)陣列,所述麥克風(fēng)陣列包括多個麥克風(fēng)單元,所述方法包括:
獲取所述麥克風(fēng)陣列采集到的多個音頻信號;
確定所述多個音頻信號中的每兩個所述音頻信號之間的互相關(guān)函數(shù)矩陣;
將每個所述互相關(guān)函數(shù)矩陣輸入至預(yù)設(shè)聲音事件分類模型,得到聲音事件的類別矩陣,所述預(yù)設(shè)聲音事件分類模型為預(yù)先訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)模型;
對每個所述音頻信號進行傅里葉變換,得到每個所述音頻信號的頻譜圖,并根據(jù)每個所述音頻信號的頻譜數(shù)據(jù),確定聲音事件的聲源方位矩陣;
將所述類別矩陣和所述聲源方位矩陣輸入至預(yù)設(shè)匹配網(wǎng)絡(luò)進行匹配,得到所述音頻信號中的每個聲音事件的類別以及與所述類別匹配的聲源方位。
2.根據(jù)權(quán)利要求1所述的聲音事件檢測與定位方法,其特征在于,所述確定所述多個音頻信號中的每兩個所述音頻信號之間的互相關(guān)函數(shù)矩陣,包括:
對每個所述音頻信號進行分幀處理,得到每個所述音頻信號各自對應(yīng)的多個音頻幀;
確定一個所述音頻信號的每個所述音頻幀與另一個所述音頻信號的對應(yīng)音頻幀之間的互相關(guān)函數(shù);
根據(jù)一個所述音頻信號的每個所述音頻幀與另一個所述音頻信號的對應(yīng)音頻幀之間的互相關(guān)函數(shù),確定每兩個所述音頻信號之間的互相關(guān)函數(shù)矩陣。
3.根據(jù)權(quán)利要求1所述的聲音事件檢測與定位方法,其特征在于,所述根據(jù)每個所述音頻信號的頻譜數(shù)據(jù),確定聲音事件的聲源方位矩陣,包括:
根據(jù)每個所述音頻信號的頻譜數(shù)據(jù)確定第一頻譜協(xié)方差矩陣;
獲取第二頻譜協(xié)方差矩陣,其中,所述第二頻譜協(xié)方差矩陣是基于所述麥克風(fēng)陣列在上一時刻采集到的音頻信號的頻譜數(shù)據(jù)確定的;
根據(jù)所述第一頻譜協(xié)方差矩陣和所述第二頻譜協(xié)方差矩陣,確定導(dǎo)向矢量矩陣;
根據(jù)生成的每個所述導(dǎo)向矢量矩陣,確定每個聲音事件的聲源方位,并根據(jù)每個聲音事件的聲源方位,確定所述聲源方位矩陣。
4.根據(jù)權(quán)利要求3所述的聲音事件檢測與定位方法,其特征在于,所述根據(jù)每個所述音頻信號的頻譜數(shù)據(jù)確定第一頻譜協(xié)方差矩陣,包括:
對每個所述音頻信號的頻譜數(shù)據(jù)進行噪聲頻點去除和回音頻點去除,得到每個所述音頻信號的目標(biāo)頻譜數(shù)據(jù);
根據(jù)每個所述音頻信號的目標(biāo)頻譜數(shù)據(jù),確定第一頻譜協(xié)方差矩陣。
5.根據(jù)權(quán)利要求4所述的聲音事件檢測與定位方法,其特征在于,對每個所述音頻信號的頻譜數(shù)據(jù)進行噪聲頻點去除和回音頻點去除,得到每個所述音頻信號的目標(biāo)頻譜數(shù)據(jù),包括:
將每個所述音頻信號的頻譜數(shù)據(jù)中的頻譜能量小于預(yù)設(shè)頻譜能量的噪聲頻點剔除,得到每個所述音頻信號的第一頻譜數(shù)據(jù);
根據(jù)所述麥克風(fēng)陣列在上一時刻采集到的音頻信號的第二頻譜數(shù)據(jù),確定回音頻點的頻譜能量閾值;
將每個所述音頻信號的第一頻譜數(shù)據(jù)中的頻譜能量小于所述頻譜能量閾值的回音頻點剔除,得到每個所述音頻信號的目標(biāo)頻譜數(shù)據(jù)。
6.根據(jù)權(quán)利要求3所述的聲音事件檢測與定位方法,其特征在于,所述根據(jù)所述第一頻譜協(xié)方差矩陣和所述第二頻譜協(xié)方差矩陣,確定導(dǎo)向矢量矩陣,包括:
根據(jù)所述第一頻譜協(xié)方差矩陣和所述第二頻譜協(xié)方差矩陣,每個所述麥克風(fēng)單元的導(dǎo)向矢量;
基于每個所述麥克風(fēng)單元的導(dǎo)向矢量,生成每個聲音事件的導(dǎo)向矢量矩陣,其中,所述麥克風(fēng)單元在不同聲音事件下的導(dǎo)向矢量不同。
7.根據(jù)權(quán)利要求1-6中任一項所述的聲音事件檢測與定位方法,其特征在于,所述預(yù)設(shè)匹配網(wǎng)絡(luò)為預(yù)先訓(xùn)練好的雙向長短時記憶網(wǎng)絡(luò),所述將所述類別矩陣和所述聲源方位矩陣輸入至預(yù)設(shè)匹配網(wǎng)絡(luò)進行匹配,包括:
對所述類別矩陣和所述聲源方位矩陣進行平滑處理;
將經(jīng)平滑處理后的所述類別矩陣和所述聲源方位矩陣輸入至預(yù)設(shè)匹配網(wǎng)絡(luò)進行匹配,其中,所述預(yù)設(shè)匹配網(wǎng)絡(luò)為預(yù)先訓(xùn)練好的雙向長短時記憶網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011446660.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





