[發明專利]樂器識別方法、介質、裝置和計算設備在審
| 申請號: | 201811197335.1 | 申請日: | 2018-10-15 |
| 公開(公告)號: | CN111048110A | 公開(公告)日: | 2020-04-21 |
| 發明(設計)人: | 鄭淵中;劉華平;林勇平;許崝;眭世晨 | 申請(專利權)人: | 杭州網易云音樂科技有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 楊瑾瑾;徐瑞紅 |
| 地址: | 310052 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樂器 識別 方法 介質 裝置 計算 設備 | ||
1.一種樂器識別方法,其特征在于,包括:
獲取音頻樣本;
將所述音頻樣本轉換成聽覺譜圖;
采用卷積神經網絡對所述聽覺譜圖進行識別;所述卷積神經網絡的輸出為演奏音頻文件的樂器的標識,以及所述樂器的標識對應的概率。
2.根據權利要求1所述的方法,其特征在于,所述獲取音頻樣本,包括:
獲取所述音頻文件,將所述音頻文件轉化為頻譜文件,檢測所述頻譜文件中每一個能量增高超過預設閾值的幀的時間節點;
采用所述時間節點對所述音頻文件進行分割,得到多個音頻文件片段;
將每個音頻文件片段進行固定長度標準化處理,得到所述音頻樣本。
3.根據權利要求1所述的方法,其特征在于,所述將所述音頻樣本轉換成聽覺譜圖,包括:
采用基底膜模型和聽覺系統內毛細胞Meddis模型對所述音頻樣本進行處理,得到所述聽覺譜圖。
4.一種卷積神經網絡訓練方法,其特征在于,包括:
獲取音頻樣本;
將所述音頻樣本轉換成聽覺譜圖;
采用所述聽覺譜圖訓練卷積神經網絡;所述卷積神經網絡的輸出為演奏音頻文件的樂器的標識,以及所述樂器的標識對應的概率。
5.一種樂器識別裝置,其特征在于,包括:
第一樣本獲取模塊,用于獲取音頻樣本;
第一轉換模塊,用于將所述音頻樣本轉換成聽覺譜圖;
識別模塊,用于采用卷積神經網絡對所述聽覺譜圖進行識別;其中,所述卷積神經網絡的輸出為演奏音頻文件的樂器的標識,以及所述樂器的標識對應的概率。
6.一種卷積神經網絡訓練裝置,其特征在于,包括:
第二樣本獲取模塊,用于獲取音頻樣本;
第二轉換模塊,用于將所述音頻樣本轉換成聽覺譜圖;
訓練模塊,用于采用所述聽覺譜圖訓練卷積神經網絡;所述卷積神經網絡的輸出為演奏音頻文件的樂器的標識,以及所述樂器的標識對應的概率。
7.一種介質,其存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-3中任一所述的方法。
8.一種介質,其存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求4所述的方法。
9.一種計算設備,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器實現如權利要求1-3中任一所述的方法。
10.一種計算設備,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器實現如權利要求4所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州網易云音樂科技有限公司,未經杭州網易云音樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811197335.1/1.html,轉載請聲明來源鉆瓜專利網。





