[發明專利]一種音頻分類方法和裝置在審
| 申請號: | 201910209502.8 | 申請日: | 2019-03-19 |
| 公開(公告)號: | CN111724810A | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 郝婧;陳家旭;孫海鳴;謝迪;浦世亮 | 申請(專利權)人: | 杭州海康威視數字技術股份有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/30;G10L25/18;G10L17/26;G06N3/08;G06N3/04;G06K9/66;G06K9/62;G10L17/04;G10L17/18;G10L25/03 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 310051 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻 分類 方法 裝置 | ||
本申請提供一種音頻分類方法和裝置,該方法包括:將原始音頻數據輸入預先訓練的音頻分類網絡模型的第一特征提取網絡,以得到所述原始音頻數據的類頻譜特征;將所述類頻譜特征轉換為二維音頻特征輸入到所述預先訓練的音頻分類網絡模型的第二特征提取網絡,以得到所述原始音頻數據的網絡深度特征;將所述原始音頻數據的網絡深度特征輸入到所述預先訓練的音頻分類網絡模型的分類網絡,以得到所述原始音頻數據的分類結果。該方法可以簡化音頻分類的操作,提高音頻分類的效率。
技術領域
本申請涉及深度學習領域技術,尤其涉及一種音頻分類方法和裝置。
背景技術
音頻分類(Audio Classification)是指識別音頻數據中是否包含某類音頻事件,如狗叫、鳴笛等。
目前的音頻分類方案中,需要手動提取音頻數據的音頻特征,如對數梅爾頓頻譜圖,并將該手動提取的音頻特征作為輸入進行音頻分類。
實踐發現,上述音頻分類方案中,無法實現端到端的音頻分類,即無法直接以原始音頻數據(原始波形信號(Raw Waveform))作為輸入實現音頻分類,其音頻分類操作較為繁瑣,實現效率較低。
發明內容
有鑒于此,本申請提供一種音頻分類方法和裝置。
具體地,本申請是通過如下技術方案實現的:
根據本申請實施例的第一方面,提供一種音頻分類方法,包括:
將原始音頻數據輸入預先訓練的音頻分類網絡模型的第一特征提取網絡,以得到所述原始音頻數據的類頻譜特征;
將所述類頻譜特征轉換為二維音頻特征輸入到所述預先訓練的音頻分類網絡模型的第二特征提取網絡,以得到所述原始音頻數據的網絡深度特征;
將所述原始音頻數據的網絡深度特征輸入到所述預先訓練的音頻分類網絡模型的分類網絡,以得到所述原始音頻數據的分類結果。
根據本申請實施例的第二方面,提供一種音頻分類裝置,包括:
第一特征提取單元,用于將原始音頻數據輸入預先訓練的音頻分類網絡模型的第一特征提取網絡,以得到所述原始音頻數據的類頻譜特征;
轉換單元,用于將所述類頻譜特征轉換為二維音頻特征;
第二特征提取單元,用于將所述二維音頻特征輸入到所述預先訓練的音頻分類網絡模型的第二特征提取網絡,以得到所述原始音頻數據的網絡深度特征;
分類單元,用于將所述原始音頻數據的網絡深度特征輸入到所述預先訓練的音頻分類網絡模型的分類網絡,以得到所述原始音頻數據的分類結果。
附圖說明
圖1是本申請一示例性實施例示出的一種音頻分類方法的流程圖;
圖2是本申請一示例性實施例示出的一種音頻分類網絡模型訓練方法的流程圖;
圖3是本申請一示例性實施例示出的一種音頻分類網絡模型的示意圖;
圖4是本申請一示例性實施例示出的一種音頻分類裝置的結構示意圖;
圖5是本申請又一示例性實施例示出的一種音頻分類裝置的結構示意圖;
圖6是本申請一示例性實施例示出的一種電子設備的硬件結構示意圖。
具體實施方式
這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本申請相一致的所有實施方式。相反,它們僅是與如所附權利要求書中所詳述的、本申請的一些方面相一致的裝置和方法的例子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州海康威視數字技術股份有限公司,未經杭州海康威視數字技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910209502.8/2.html,轉載請聲明來源鉆瓜專利網。





