[發明專利]聲學場景分類方法、裝置及相應設備在審
| 申請號: | 201910810000.0 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN112446242A | 公開(公告)日: | 2021-03-05 |
| 發明(設計)人: | 祝厚偉;王立眾;楊磊 | 申請(專利權)人: | 北京三星通信技術研究有限公司;三星電子株式會社 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/08;G10L25/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 于翔;曾世驍 |
| 地址: | 100028 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聲學 場景 分類 方法 裝置 相應 設備 | ||
提供了一種聲學場景分類方法、裝置及相應設備,所述方法包括:獲取音頻對應的第一音頻特征信號;將第一音頻特征信號輸入卷積神經網絡以獲得第二音頻特征信號,將第二音頻特征信號輸入循環神經網絡以獲得第三音頻特征信號,將第二音頻特征信號與第三音頻特征信號進行融合處理以獲得第四音頻特征信號;使用第四音頻特征信號進行聲學場景分類以獲得所述音頻所屬場景類別。
技術領域
本申請涉及聲學技術領域,更具體地,涉及一種聲學場景分類方法、裝置及相應設備。
背景技術
聲學場景分類是通過一段音頻識別出音頻屬于哪種場景,通常在給定的固定種類的聲學場景(例如,“機場”、“購物中心”、“地鐵站”、“大街人行道”、“廣場”、“有少量交通的大街”、“電車”,“巴士”、“地鐵”、“公園”等)中識別音頻是在哪個場景中。聲學場景分類能夠為基于內容的多媒體分析、語音增強、語音識別等提供很好的幫助,也能夠為電視、手機、智能機器人、智能音箱等家庭娛樂、智能設備提供音頻信號處理的輔助。
聲學場景分類的目的是通過分析音頻信號的特征,識別出特定的聲音事件或語義內容,進而判斷該音頻信號所屬于的場景。相比于基于圖像的場景識別,聲學場景分類具有以下優點:圖像信息容易受損或丟失,而音頻信息不易受損或丟失;處理音頻信息的計算量較小,能夠減輕設備的負擔;音頻信號的采集更加容易,占空間小。因此,聲學場景分類越來越成為一個快速發展的研究領域,開發相應的信號處理方法以自動提取場景信息在很多應用(例如,智能移動設備、機器人以及智能監控系統等)中具有巨大潛力。
目前,利用深度學習算法實現聲學場景分類問題已經取得了較為廣泛的研究,并已經提出了應用于音頻事件分類的門控卷積神經網絡和基于注意力的時序定位方法。然而,當涉及未知場景的聲學場景分類任務時,正確率呈下降趨勢,其中,對于已知場景類準確性略有下降,并且對于未知場景類幾乎無法將其與已知場景類進行區分。
發明內容
根據本發明的一方面,提供了一種聲學場景分類方法,包括:(a)獲取音頻對應的第一音頻特征信號;(b)將第一音頻特征信號輸入卷積神經網絡以獲得第二音頻特征信號,將第二音頻特征信號輸入循環神經網絡以獲得第三音頻特征信號,將第二音頻特征信號與第三音頻特征信號進行融合處理以獲得第四音頻特征信號;(c)使用第四音頻特征信號進行聲學場景分類以獲得所述音頻所屬場景類別。
將第一音頻特征信號輸入卷積神經網絡以獲得第二音頻特征信號的步驟可包括:在卷積神經網絡的預定卷積塊之后進行基于預定丟棄率的隨機失活操作。
所述預定丟棄率可取值為0.2至0.3之間。
在卷積神經網絡的預定卷積塊之后進行基于預定丟棄率的隨機失活操作的步驟可包括:在卷積神經網絡的每兩個卷積塊之后進行基于預定丟棄率的隨機失活操作。
將第一音頻特征信號輸入卷積神經網絡以獲得第二音頻特征信號的步驟可包括:在卷積神經網絡的設定卷積層之后,進行僅針對頻率軸的池化操作。
卷積神經網絡最后一個卷積層后的池化操作的池化大小,可以和其他預定卷積層后的池化操作的池化大小不同。
所述池化操作可以為最大池化操作。
使用第四音頻特征信號進行聲學場景分類的步驟可包括:將第四音頻特征信號輸入自注意力網絡包括的位置嵌入層以將第四音頻特征信號的各向量與各向量對應位置的順序信息相加,以獲得第五音頻特征信號;將第五音頻特征信號輸入自注意力網絡包括的自注意力層以獲得第六音頻特征信號。
使用第四音頻特征信號進行聲學場景分類的步驟還可包括:將第六音頻特征信號輸入到第一全連接層以獲得所述音頻針對各預定場景的二分類概率,以及將第六音頻特征信號輸入到第二全連接層以獲得所述音頻針對各預定場景的多分類概率;針對各預定場景,將所述音頻針對各預定場景的二分類概率和多分類概率進行融合,以獲得所述音頻針對各預定場景的概率;根據所述音頻針對各預定場景的概率,獲得所述音頻所屬場景類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三星通信技術研究有限公司;三星電子株式會社,未經北京三星通信技術研究有限公司;三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910810000.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:處理任務集的方法和裝置
- 下一篇:報文傳輸方法及裝置、計算機存儲介質





