[發(fā)明專利]聲音事件檢測與定位方法、裝置、設(shè)備及可讀存儲介質(zhì)在審

申請?zhí)枺?/td>	202011446660.4	申請日：	2020-12-11
公開（公告）號：	CN112581978A	公開（公告）日：	2021-03-30
發(fā)明（設(shè)計）人：	羅劍;王健宗;程寧	申請（專利權(quán)）人：	平安科技（深圳）有限公司
主分類號：	G10L25/51	分類號：	G10L25/51;G10L25/30;G10L19/02;G01S5/18;G06F17/15;G06F17/16;G06N3/04;G06N3/08
代理公司：	深圳市力道知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44507	代理人：	賀小旺
地址：	518000 廣東省深圳市福田區(qū)福***	國省代碼：	廣東;44
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	聲音事件檢測定位方法裝置設(shè)備可讀存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本申請?zhí)峁┮环N聲音事件檢測與定位方法、裝置、設(shè)備及可讀存儲介質(zhì)，該方法包括：獲取麥克風(fēng)陣列采集到的多個音頻信號；確定多個音頻信號中的每兩個音頻信號之間的互相關(guān)函數(shù)矩陣；將每個互相關(guān)函數(shù)矩陣輸入至預(yù)設(shè)聲音事件分類模型，得到聲音事件的類別矩陣，預(yù)設(shè)聲音事件分類模型為預(yù)先訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)模型；對每個音頻信號進(jìn)行傅里葉變換，得到每個音頻信號的頻譜圖，并根據(jù)每個音頻信號的頻譜數(shù)據(jù)，確定聲音事件的聲源方位矩陣；將類別矩陣和聲源方位矩陣輸入至預(yù)設(shè)匹配網(wǎng)絡(luò)進(jìn)行匹配，得到音頻信號中的每個聲音事件的類別以及與所述類別匹配的聲源方位。本申請準(zhǔn)確且快速的實現(xiàn)聲音事件的檢測和定位。

技術(shù)領(lǐng)域

本申請涉及語音處理技術(shù)領(lǐng)域，尤其涉及一種聲音事件檢測與定位方法、裝置、設(shè)備及可讀存儲介質(zhì)。

背景技術(shù)

現(xiàn)有的多重聲音事件檢測、分類和定位系統(tǒng)，即可檢測一段時間內(nèi)的聲音信號，識別其中包含的不同聲音事件的分類，并判斷每一個聲音事件發(fā)生的方位。該系統(tǒng)在機(jī)器人交互、自動駕駛和野外搜救等場景有著廣泛的應(yīng)用。但是目前的聲音事件定位檢測系統(tǒng)(sound event localization and detection，SELD)通常由兩個獨(dú)立的模塊構(gòu)成，即聲音事件檢測(sound event detection，SED)和方向檢測(direction-of-arrivalestimation，DOAE)。目前深度學(xué)習(xí)已被廣泛應(yīng)用于SED模塊，而DOAE模塊多采用傳統(tǒng)的基于麥克風(fēng)陣列的信號處理算法，由于方向檢測和事件檢測被分開執(zhí)行，該系統(tǒng)無法將SED和DOAE學(xué)習(xí)到的內(nèi)容相結(jié)合，特別是在針對多個聲音源的事件檢測和定位的任務(wù)中，無法進(jìn)一步提高系統(tǒng)的準(zhǔn)確率。

發(fā)明內(nèi)容

本申請的主要目的在于提供一種聲音事件檢測與定位方法、裝置、設(shè)備及可讀存儲介質(zhì)，旨在準(zhǔn)確的實現(xiàn)聲音事件的檢測和定位。

第一方面，本申請?zhí)峁┮环N聲音事件檢測與定位方法，應(yīng)用于電子設(shè)備，所述電子設(shè)備包括麥克風(fēng)陣列，所述麥克風(fēng)陣列包括多個麥克風(fēng)單元，所述方法包括：

獲取所述麥克風(fēng)陣列采集到的多個音頻信號；

確定所述多個音頻信號中的每兩個所述音頻信號之間的互相關(guān)函數(shù)矩陣；

將每個所述互相關(guān)函數(shù)矩陣輸入至預(yù)設(shè)聲音事件分類模型，得到聲音事件的類別矩陣，所述預(yù)設(shè)聲音事件分類模型為預(yù)先訓(xùn)練好的的神經(jīng)網(wǎng)絡(luò)模型；

對每個所述音頻信號進(jìn)行傅里葉變換，得到每個所述音頻信號的頻譜圖，并根據(jù)每個所述音頻信號的頻譜數(shù)據(jù)，確定聲音事件的聲源方位矩陣；

將所述類別矩陣和所述聲源方位矩陣輸入至預(yù)設(shè)匹配網(wǎng)絡(luò)進(jìn)行匹配，得到所述音頻信號中的每個聲音事件的類別以及與所述類別匹配的聲源方位。

第二方面，本申請還提供一種聲音事件檢測與定位裝置，應(yīng)用于電子設(shè)備，所述電子設(shè)備包括麥克風(fēng)陣列，所述麥克風(fēng)陣列包括多個麥克風(fēng)單元，所述聲音事件檢測與定位裝置包括獲取模塊、確定模塊、生成模塊、匹配模塊，其中：

所述獲取模塊，用于獲取所述麥克風(fēng)陣列采集到的多個音頻信號；

所述確定模塊，用于確定所述多個音頻信號中的每兩個所述音頻信號之間的互相關(guān)函數(shù)矩陣；

所述生成模塊，用于將每個所述互相關(guān)函數(shù)矩陣輸入至預(yù)設(shè)聲音事件分類模型，得到聲音事件的類別矩陣；

所述確定模塊，還用于對每個所述音頻信號進(jìn)行傅里葉變換，得到每個所述音頻信號的頻譜圖，并根據(jù)每個所述音頻信號的頻譜數(shù)據(jù)，確定聲音事件的聲源方位矩陣；

所述匹配模塊，用于將所述類別矩陣和所述聲源方位矩陣輸入至預(yù)設(shè)匹配網(wǎng)絡(luò)進(jìn)行匹配，得到所述音頻信號中的每個聲音事件的類別以及與所述類別匹配的聲源方位。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技（深圳）有限公司，未經(jīng)平安科技（深圳）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011446660.4/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于攻擊拓?fù)涞碾娏魷y試系統(tǒng)
下一篇：油氣輸送鋼管冷熱焊絲匹配焊接裝置及系統(tǒng)

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

[發(fā)明專利]聲音事件檢測與定位方法、裝置、設(shè)備及可讀存儲介質(zhì)在審

專利文獻(xiàn)下載