[發明專利]音樂風格分類方法、裝置、計算機設備及存儲介質在審
| 申請號: | 201910366739.7 | 申請日: | 2019-05-05 |
| 公開(公告)號: | CN110188235A | 公開(公告)日: | 2019-08-30 |
| 發明(設計)人: | 王健宗;劉奡智 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/65 | 分類號: | G06F16/65;G06F16/683;G06N3/04 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 林彥之 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 音樂風格 音源 預處理 計算機設備 存儲介質 頻譜圖 卷積神經網絡 網絡模型 沖擊波 諧波 分類識別 獲取數據 人工分類 輸入網絡 數據集中 原始音源 再利用 預設 局限 成功 | ||
本發明公開了一種音樂風格分類方法、裝置、計算機設備及存儲介質,方法包括獲取數據集;將數據集中的音頻進行預處理后輸入預設的深度卷積神經網絡進行訓練,得到訓練好的網絡模型;將待分類音頻進行預處理,并輸入網絡模型得到待分類音頻的音樂風格識別結果;其中,預處理包括分離被處理音頻的諧波音源與沖擊波音源;將被處理音頻的原始音源、諧波音源與沖擊波音源均轉變為頻譜圖。本發明所提出的音樂風格分類方法、計算機設備及存儲介質通過將音頻轉變為頻譜圖,利用頻譜圖訓練深度卷積神經網絡,再利用訓練好的網絡模型對待分類音頻進行分類識別,可成功實現對音頻的較高精度分類,且分類速度快,解決了人工分類的局限。
技術領域
本發明涉及計算機識別技術領域,特別是涉及一種音樂風格分類方法、裝置、計算機設備及存儲介質。
背景技術
音樂風格是反映一段音樂總體特征的標簽,一首流行音樂的音樂風格分類可以分為鄉村音樂、爵士、搖滾、重金屬音樂、朋克、電子音樂、靈魂音樂、R&B、英倫搖滾、神游舞曲、匪幫說唱等等上百種,用人工的方式做分類工作量巨大而且局限于對做分類的人員的專業能力要求較高,并且能為音樂打上的風格標簽局限于分類人員的學識以及個人認知。用神經網絡的方法能夠在只給定一段音頻的情況下判斷音樂風格,為該段音頻打上標簽,這對音樂的檢索,歸類都有重大意義,以往的分類方式都是利用人工神經網絡,效率很低而且分類精度只能達到60%,而利用卷積神經網絡可以共享卷積核,對高位數據處理無壓力,無需手動選取特征的優點可以大大提高音樂風格分類的精度。
發明內容
有鑒于此,本發明提出一種音樂風格分類方法、裝置、計算機設備及存儲介質,旨在提供一種利用計算機技術自動對待分類音頻進行識別分類的技術,不僅可提高分類速度,而且可提高分類精度。
首先,為實現上述目的,本發明提出一種音樂風格分類方法,所述方法包括
獲取數據集,所述數據集由多種類型的音頻組成,各音頻的音樂風格已知;
將所述數據集中的音頻進行預處理后輸入預設的深度卷積神經網絡進行訓練,得到訓練好的網絡模型;
將待分類音頻進行預處理,并輸入所述網絡模型得到待分類音頻的音樂風格識別結果;
其中,所述預處理包括
分離被處理音頻的諧波音源與沖擊波音源;
將被處理音頻的原始音源、諧波音源與沖擊波音源均轉變為頻譜圖。
進一步地,所述分離被處理音頻的諧波音源與沖擊波音源具體包括
利用HPSS算法分離被處理音頻的諧波音源與沖擊波音源。
由權利要求1所述的音樂風格分類方法,其特征在于,所述將被處理音頻的原始音源、諧波音源與沖擊波音源均轉變為頻譜圖具體包括
對所述原始音源、諧波音源與沖擊波音源分別作短時傅里葉變換得到各自的頻譜圖。
進一步地,所述深度卷積神經網絡包括5個卷積層、2個池化層以及最后3層全連接層,其中前五層卷積層與池化層交替出現,所述輸入預設的深度卷積神經網絡進行訓練包括
利用所述數據集預處理后得到的頻譜圖集對深度卷積神經網絡進行有監督的學習,得到合適的權重參數矩陣和偏移量;
將權重參數矩陣和偏移量對應地賦值給所述深度卷積神經網絡的各個層。
進一步地,所述對深度卷積神經網絡進行有監督的學習包括
將頻譜圖集中的頻譜圖輸入到所述深度卷積神經網絡;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910366739.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:音頻推送方法及相關產品
- 下一篇:一種音樂的推薦方法、裝置及系統





