[發(fā)明專利]音樂風(fēng)格分類方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910366739.7 | 申請日: | 2019-05-05 |
| 公開(公告)號: | CN110188235A | 公開(公告)日: | 2019-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 王健宗;劉奡智 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/65 | 分類號: | G06F16/65;G06F16/683;G06N3/04 |
| 代理公司: | 北京英特普羅知識產(chǎn)權(quán)代理有限公司 11015 | 代理人: | 林彥之 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分類 音樂風(fēng)格 音源 預(yù)處理 計(jì)算機(jī)設(shè)備 存儲介質(zhì) 頻譜圖 卷積神經(jīng)網(wǎng)絡(luò) 網(wǎng)絡(luò)模型 沖擊波 諧波 分類識別 獲取數(shù)據(jù) 人工分類 輸入網(wǎng)絡(luò) 數(shù)據(jù)集中 原始音源 再利用 預(yù)設(shè) 局限 成功 | ||
1.音樂風(fēng)格分類方法,其特征在于,所述方法包括
獲取數(shù)據(jù)集,所述數(shù)據(jù)集由多種類型的音頻組成,各音頻的音樂風(fēng)格已知;
將所述數(shù)據(jù)集中的音頻進(jìn)行預(yù)處理后輸入預(yù)設(shè)的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的網(wǎng)絡(luò)模型;
將待分類音頻進(jìn)行預(yù)處理,并輸入所述網(wǎng)絡(luò)模型得到待分類音頻的音樂風(fēng)格識別結(jié)果;
其中,所述預(yù)處理包括
分離被處理音頻的諧波音源與沖擊波音源;
將被處理音頻的原始音源、諧波音源與沖擊波音源均轉(zhuǎn)變?yōu)轭l譜圖。
2.由權(quán)利要求1所述的音樂風(fēng)格分類方法,其特征在于,所述分離被處理音頻的諧波音源與沖擊波音源具體包括
利用HPSS算法分離被處理音頻的諧波音源與沖擊波音源。
3.由權(quán)利要求1所述的音樂風(fēng)格分類方法,其特征在于,所述將被處理音頻的原始音源、諧波音源與沖擊波音源均轉(zhuǎn)變?yōu)轭l譜圖具體包括
對所述原始音源、諧波音源與沖擊波音源分別作短時(shí)傅里葉變換得到各自的頻譜圖。
4.由權(quán)利要求1所述的音樂風(fēng)格分類方法,其特征在于,所述深度卷積神經(jīng)網(wǎng)絡(luò)包括5個(gè)卷積層、2個(gè)池化層以及最后3層全連接層,其中前五層卷積層與池化層交替出現(xiàn),所述輸入預(yù)設(shè)的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練包括
利用所述數(shù)據(jù)集預(yù)處理后得到的頻譜圖集對深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的學(xué)習(xí),得到合適的權(quán)重參數(shù)矩陣和偏移量;
將權(quán)重參數(shù)矩陣和偏移量對應(yīng)地賦值給所述深度卷積神經(jīng)網(wǎng)絡(luò)的各個(gè)層。
5.由權(quán)利要求4所述的音樂風(fēng)格分類方法,其特征在于,所述對深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的學(xué)習(xí)包括
將頻譜圖集中的頻譜圖輸入到所述深度卷積神經(jīng)網(wǎng)絡(luò);
深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行前向傳播得出識別結(jié)果;其中,每個(gè)卷積層采用ReLU作為激活函數(shù),每個(gè)所述卷積層與全連接層均具有dropout參數(shù),卷積層的dropout為0.0005,全連接層的dropout為0.5;最后一層所述全連接層采用softmax函數(shù)進(jìn)行回歸;
判斷識別結(jié)果與實(shí)際音樂風(fēng)格是否相符;
若相符則停止訓(xùn)練,若不相符在反向傳播過程中采用隨機(jī)梯度下降算法進(jìn)行權(quán)重參數(shù)矩陣和偏移量的調(diào)整。
6.由權(quán)利要求4所述的音樂風(fēng)格分類方法,其特征在于,所述輸入所述網(wǎng)絡(luò)模型得到待分類音頻的音樂風(fēng)格識別結(jié)果包括
將輸入的頻譜圖歸一化為設(shè)定大小的圖像;
將經(jīng)過歸一化后的圖像進(jìn)行卷積計(jì)算;
將最后一層卷積層輸出的特征圖輸送至3層全連接層;
獲取最后一個(gè)全連接層的輸出作為識別結(jié)果。
7.由權(quán)利要求6所述的音樂風(fēng)格分類方法,其特征在于,所述將輸入的頻譜圖歸一化為設(shè)定大小的圖像具體為
將輸入的頻譜圖歸一化為256*256大小的圖像;
所述將經(jīng)過歸一化后的圖像進(jìn)行卷積計(jì)算包括
通過第一個(gè)卷積層利用96個(gè)大小為11*11,步長為4個(gè)像素的核對輸入的圖像進(jìn)行濾波;
通過第一個(gè)池化層將第一個(gè)卷積層的輸出作為輸入并和96個(gè)大小為3*3的核進(jìn)行濾波;
通過第二個(gè)卷積層利用256個(gè)大小為5*5的核對第一個(gè)池化層的輸出進(jìn)行濾波;
通過第二個(gè)池化層將第二個(gè)卷積層的輸出作為輸入并和256個(gè)大小為5*5的核進(jìn)行濾波;
將第二個(gè)池化層的輸出輸入第三個(gè)卷積層,并依次通過第三、第四、第五個(gè)卷積層進(jìn)行濾波操作最終獲得256個(gè)大小為6*6的特征圖;其中,第三個(gè)卷積層擁有384個(gè)大小為3*3的核,第三個(gè)卷積層擁有384個(gè)大小為3*3的核,第三個(gè)卷積層擁有256個(gè)大小為3*3的核。
8.一種音樂風(fēng)格分類裝置,其特征在于,其包括
獲取模塊,適于獲取數(shù)據(jù)集,所述數(shù)據(jù)集由多種類型的音頻組成,各音頻的音樂風(fēng)格已知;
訓(xùn)練模塊,適于將所述數(shù)據(jù)集中的音頻進(jìn)行預(yù)處理后輸入預(yù)設(shè)的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的網(wǎng)絡(luò)模型;
識別模塊,適于將待分類音頻進(jìn)行預(yù)處理,并輸入所述網(wǎng)絡(luò)模型得到待分類音頻的音樂風(fēng)格識別結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910366739.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法





