[發明專利]聲學場景分類方法、裝置及相應設備在審
| 申請號: | 201910810000.0 | 申請日: | 2019-08-29 |
| 公開(公告)號: | CN112446242A | 公開(公告)日: | 2021-03-05 |
| 發明(設計)人: | 祝厚偉;王立眾;楊磊 | 申請(專利權)人: | 北京三星通信技術研究有限公司;三星電子株式會社 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/08;G10L25/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 于翔;曾世驍 |
| 地址: | 100028 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聲學 場景 分類 方法 裝置 相應 設備 | ||
1.一種聲學場景分類方法,包括:
(a)獲取音頻對應的第一音頻特征信號;
(b)將第一音頻特征信號輸入卷積神經網絡以獲得第二音頻特征信號,將第二音頻特征信號輸入循環神經網絡以獲得第三音頻特征信號,將第二音頻特征信號與第三音頻特征信號進行融合處理以獲得第四音頻特征信號;
(c)使用第四音頻特征信號進行聲學場景分類以獲得所述音頻所屬場景類別。
2.如權利要求1所述的聲學場景分類方法,其中,將第一音頻特征信號輸入卷積神經網絡以獲得第二音頻特征信號的步驟包括:
在卷積神經網絡的預定卷積塊之后進行基于預定丟棄率的隨機失活操作。
3.如權利要求2所述的聲學場景分類方法,其中,所述預定丟棄率取值為0.2至0.3之間。
4.如權利要求2或3所述的聲學場景分類方法,在卷積神經網絡的預定卷積塊之后進行基于預定丟棄率的隨機失活操作的步驟包括:
在卷積神經網絡的每兩個卷積塊之后進行基于預定丟棄率的隨機失活操作。
5.如權利要求1所述的聲學場景分類方法,其中,將第一音頻特征信號輸入卷積神經網絡以獲得第二音頻特征信號的步驟包括:
在卷積神經網絡的設定卷積層之后,進行僅針對頻率軸的池化操作。
6.如權利要求5所述的聲學場景分類方法,其中,卷積神經網絡最后一個卷積層后的池化操作的池化大小,和其他預定卷積層后的池化操作的池化大小不同。
7.如權利要求5或6所述的聲學場景分類方法,其中,所述池化操作為最大池化操作。
8.如權利要求1所述的聲學場景分類方法,其中,使用第四音頻特征信號進行聲學場景分類的步驟包括:
將第四音頻特征信號輸入自注意力網絡包括的位置嵌入層以將第四音頻特征信號的各向量與各向量對應位置的順序信息相加,以獲得第五音頻特征信號;
將第五音頻特征信號輸入自注意力網絡包括的自注意力層以獲得第六音頻特征信號。
9.如權利要求8所述的聲學場景分類方法,其中,使用第四音頻特征信號進行聲學場景分類的步驟還包括:
將第六音頻特征信號輸入到第一全連接層以獲得所述音頻針對各預定場景的二分類概率,以及將第六音頻特征信號輸入到第二全連接層以獲得所述音頻針對各預定場景的多分類概率;
針對各預定場景,將所述音頻針對各預定場景的二分類概率和多分類概率進行融合,以獲得所述音頻針對各預定場景的概率;
根據所述音頻針對各預定場景的概率,獲得所述音頻所屬場景類別。
10.如權利要求1至9中任一項所述的聲學場景分類方法,其中,所述循環神經網絡為雙向循環神經網絡。
11.如權利要求1至10中任一項所述的聲學場景分類方法,使用第四音頻特征信號進行聲學場景分類的步驟包括:
根據第四音頻特征信號確定所述音頻針對各預定場景的概率;
當針對各預定場景的概率中的最大概率小于預定閾值時,將所述音頻確定為未知場景,當所述最大概率不小于預定閾值時,將所述音頻確定為與所述最大概率對應的預定場景。
12.如權利要求11所述的聲學場景分類方法,其中,所述預定閾值為0.4。
13.如權利要求12或13所述的聲學場景分類方法,還包括:
將第一音頻特征信號針對預定數量的卷積神經網絡和循環神經網絡進行步驟(b)以獲得所述預定數量的所述音頻針對各預定場景的概率,對所述預定數量的所述音頻針對各預定場景的概率求平均值以用于獲得所述音頻所屬場景類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三星通信技術研究有限公司;三星電子株式會社,未經北京三星通信技術研究有限公司;三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910810000.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:處理任務集的方法和裝置
- 下一篇:報文傳輸方法及裝置、計算機存儲介質





