[發(fā)明專利]樂器識別方法、介質(zhì)、裝置和計算設(shè)備在審
| 申請?zhí)枺?/td> | 201811197335.1 | 申請日: | 2018-10-15 |
| 公開(公告)號: | CN111048110A | 公開(公告)日: | 2020-04-21 |
| 發(fā)明(設(shè)計)人: | 鄭淵中;劉華平;林勇平;許崝;眭世晨 | 申請(專利權(quán))人: | 杭州網(wǎng)易云音樂科技有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30 |
| 代理公司: | 北京市鑄成律師事務(wù)所 11313 | 代理人: | 楊瑾瑾;徐瑞紅 |
| 地址: | 310052 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 樂器 識別 方法 介質(zhì) 裝置 計算 設(shè)備 | ||
本發(fā)明的實施方式提供了一種樂器識別方法。該方法包括:獲取音頻樣本;將所述音頻樣本轉(zhuǎn)換成聽覺譜圖;采用卷積神經(jīng)網(wǎng)絡(luò)對所述聽覺譜圖進行識別;所述卷積神經(jīng)網(wǎng)絡(luò)的輸出為演奏音頻文件的樂器的標識,以及所述樂器的標識對應(yīng)的概率。通過采用卷積神經(jīng)網(wǎng)絡(luò)識別音頻樣本所對應(yīng)的聽覺譜圖,本發(fā)明的方法能夠自動識別出演奏音頻文件的樂器。這樣,無需對音頻文件采用人工識別的方式,能夠滿足對海量音樂的分類需求。此外,本發(fā)明的實施方式還提供了一種樂器識別裝置、以及一種卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法和裝置。
技術(shù)領(lǐng)域
本發(fā)明的實施方式涉及深度學(xué)習(xí)領(lǐng)域,更具體地,本發(fā)明的實施方式涉及樂器識別方法、介質(zhì)、裝置和計算設(shè)備。
背景技術(shù)
本部分旨在為權(quán)利要求書中陳述的本發(fā)明的實施方式提供背景或上下文。此處的描述不因為包括在本部分中就承認是現(xiàn)有技術(shù)。
現(xiàn)有的音樂軟件的曲庫中動輒有上千萬的歌曲,對于這些歌曲的歸類一般都是基于歌手、國家和類型。如果需要按照音樂的演奏樂器進行分類,則需要采用人工分辨并由人工標注的方式;目前尚不存在成熟的樂器識別算法。而人工識別的方式標記量小,檢索的范圍也相對較小,無法對曲庫中的海量音樂進行樂器識別。
發(fā)明內(nèi)容
在本上下文中,本發(fā)明的實施方式期望提供一種樂器識別方法和裝置。
在本發(fā)明實施方式的第一方面中,提供了一種樂器識別方法,包括:
獲取音頻樣本;
將所述音頻樣本轉(zhuǎn)換成聽覺譜圖;
采用卷積神經(jīng)網(wǎng)絡(luò)對所述聽覺譜圖進行識別;所述卷積神經(jīng)網(wǎng)絡(luò)的輸出為演奏音頻文件的樂器的標識,以及所述樂器的標識對應(yīng)的概率。
在一種實施方式中,所述獲取音頻樣本,包括:
獲取所述音頻文件,將所述音頻文件轉(zhuǎn)化為頻譜文件,檢測所述頻譜文件中每一個能量增高超過預(yù)設(shè)閾值的幀的時間節(jié)點;
采用所述時間節(jié)點對所述音頻文件進行分割,得到多個音頻文件片段;
將每個音頻文件片段進行固定長度標準化處理,得到所述音頻樣本。
在一種實施方式中,所述將所述音頻樣本轉(zhuǎn)換成聽覺譜圖,包括:
采用基底膜模型和聽覺系統(tǒng)內(nèi)毛細胞Meddis模型對所述音頻樣本進行處理,得到所述聽覺譜圖。
在一種實施方式中,所述基底膜模型包括N個伽馬音調(diào)帶通濾波器,將所述音頻樣本分解為N個不同中心頻率的通道內(nèi)容;所述N為2的冪次方;
所述聽覺系統(tǒng)內(nèi)毛細胞Meddis模型對所述伽馬音調(diào)帶通濾波器輸出的通道內(nèi)容進行差分操作,并采用積分窗對所述差分操作的結(jié)果進行處理。
在一種實施方式中,所述卷積神經(jīng)網(wǎng)絡(luò)包括第一層卷積層、第一層池化層、第二層卷積層、第二層池化層、第三層卷積層、第三層池化層、全連接層和分類層;其中,
所述第一層卷積層的輸入內(nèi)容為所述聽覺譜圖,輸出內(nèi)容為所述第一層池化層的輸入內(nèi)容;
所述第一層池化層的輸出內(nèi)容為所述第二層卷積層的輸入內(nèi)容;
所述第二層卷積層的輸出內(nèi)容為所述第二層池化層的輸入內(nèi)容;
所述第二層池化層的輸出內(nèi)容為所述第三層卷積層的輸入內(nèi)容;
所述第三層卷積層的輸出內(nèi)容為所述第三層池化層的輸入內(nèi)容;
所述第三層池化層的輸出內(nèi)容為所述全連接層的輸入內(nèi)容;
所述全連接層的輸出內(nèi)容為所述分類層的輸入內(nèi)容;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州網(wǎng)易云音樂科技有限公司,未經(jīng)杭州網(wǎng)易云音樂科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811197335.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





