[發(fā)明專利]一種基于深度學(xué)習(xí)的實時音樂轉(zhuǎn)錄與曲譜匹配方法有效
| 申請?zhí)枺?/td> | 202010539625.0 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111429940B | 公開(公告)日: | 2020-10-09 |
| 發(fā)明(設(shè)計)人: | 丁小龍 | 申請(專利權(quán))人: | 杭州貝哆蜂智能有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 杭州華知專利事務(wù)所(普通合伙) 33235 | 代理人: | 束曉前 |
| 地址: | 310000 浙江省杭州市余杭區(qū)余*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 實時 音樂 轉(zhuǎn)錄 曲譜 匹配 方法 | ||
本發(fā)明提供一種基于深度學(xué)習(xí)的實時音樂轉(zhuǎn)錄與曲譜匹配方法,包括以下步驟:S1:獲取音頻片段的音符時間標(biāo)簽數(shù)據(jù)及音高標(biāo)簽數(shù)據(jù);S2:處理音頻片段中的音頻數(shù)據(jù)及噪音數(shù)據(jù),得到音頻的頻域數(shù)據(jù)和噪音的頻域數(shù)據(jù);S3:將上述數(shù)據(jù)以一定規(guī)則輸入至卷積神經(jīng)網(wǎng)絡(luò)并獲得第一模型和第二模型;S4:將第一模型和第二模型的訓(xùn)練結(jié)果輸入到隱式馬爾科夫模型進行曲譜匹配,獲得正確音符集合及初步錯誤區(qū)域;S5:針對初步錯誤區(qū)域采用Merged?Output隱式馬爾科夫模型進行重校準(zhǔn)匹配,獲得匹配結(jié)果。本發(fā)明在增加了噪音檢測模塊以及噪音處理功能,完成了實際復(fù)雜場景的音樂轉(zhuǎn)錄及彈奏糾錯,能在實際場景中得到良好的效果。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的實時音樂轉(zhuǎn)錄與曲譜匹配方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)發(fā)展導(dǎo)致的數(shù)據(jù)累積、硬件設(shè)備的不斷完善以及深度學(xué)習(xí)技術(shù)的深入研究,憑借深度學(xué)習(xí)方法的強大擬合泛化能力,在各領(lǐng)域都取得了超越傳統(tǒng)方法的成就。
音樂轉(zhuǎn)錄領(lǐng)域最常見的傳統(tǒng)方法是非負(fù)矩陣分解,該方法不需要基于先驗知識就能完成轉(zhuǎn)錄,但是要求音樂片段中的音符必須具有靜態(tài)和聲特征,也就是說音符必須具有固定的諧波格式。這在實際中幾乎是不可能的,嘈雜的環(huán)境、樂器調(diào)音的細(xì)微不同、彈奏的聲音高低、泛音識別等等問題,給這項技術(shù)在實際使用中帶來了困難。歸根結(jié)底的原因是非負(fù)矩陣分解表達(dá)能力不夠強,沒法處理實際場景中的復(fù)雜音樂特征。
基于深度學(xué)習(xí)模型的最主要的特點就是“萬能近似定理”:由于神經(jīng)網(wǎng)絡(luò)具有至少一個非線性隱藏層,那么只要給予網(wǎng)絡(luò)足夠數(shù)量的隱藏單元,它就可以以任意的精度來近似任何從一個有限維空間到另一個有限維空間的函數(shù)。
因此基于深度學(xué)習(xí)的識別方法可以在一定程度解決上述問題,大量的不同場合下彈奏的音樂數(shù)據(jù)結(jié)合模型的強大的擬合泛化能力,能夠解決復(fù)雜實際場景中音樂轉(zhuǎn)錄問題,并且結(jié)合目前的硬件設(shè)施,其處理速度完全能夠做到實時轉(zhuǎn)錄,具有極大的實用價值。
發(fā)明內(nèi)容
為了解決上述的問題,本發(fā)明提供了一種基于深度學(xué)習(xí)的實時音樂轉(zhuǎn)錄與曲譜匹配方法,運用了深度學(xué)習(xí)方法解決實際復(fù)雜場景中存在的問題,能夠完成高效準(zhǔn)確的音樂轉(zhuǎn)錄并完成魯棒的彈奏糾錯功能。
本發(fā)明的技術(shù)方案如下所示:
一種基于深度學(xué)習(xí)的實時音樂轉(zhuǎn)錄與曲譜匹配方法,包括以下步驟:
S1:獲取音頻片段的音符時間標(biāo)簽數(shù)據(jù)及音高標(biāo)簽數(shù)據(jù);
S2:處理音頻片段中的音頻數(shù)據(jù)及噪音數(shù)據(jù),得到音頻的頻域數(shù)據(jù)和噪音的頻域數(shù)據(jù);
S3:將所述音符時間標(biāo)簽數(shù)據(jù)、音頻的頻域數(shù)據(jù)和噪音的頻域數(shù)據(jù)輸入第一卷積神經(jīng)網(wǎng)絡(luò)并訓(xùn)練得到第一模型;將所述音高標(biāo)簽數(shù)據(jù)和音頻的頻域數(shù)據(jù)輸入第二卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到第二模型;
S4:將第一模型和第二模型的訓(xùn)練結(jié)果輸入到隱式馬爾科夫模型進行曲譜匹配,獲得正確音符集合及初步錯誤區(qū)域;
S5:針對初步錯誤區(qū)域采用Merged-Output隱式馬爾科夫模型進行重校準(zhǔn)匹配,獲得匹配結(jié)果。
優(yōu)選的,所述步驟S2中采用常量Q變換處理音頻片段。
優(yōu)選的,所述第一模型用于識別音符的出現(xiàn)時間并判斷當(dāng)前音頻為音樂還是噪聲,所述第二模型用于識別出現(xiàn)音符的音高。
優(yōu)選的,所述第一模型采用卷積神經(jīng)網(wǎng)絡(luò),以交叉熵函數(shù)為目標(biāo)函數(shù),有兩個輸出,輸出一的最后一層采用sigmoid函數(shù),用于輸出長度為r的置信度向量以確定出現(xiàn)音符的時間點,其中r為音頻轉(zhuǎn)換后頻譜的寬度,當(dāng)置信度超過預(yù)先設(shè)置的閾值,則判斷為音符出現(xiàn);輸出二的最后一層采用softmax函數(shù)并輸出一個用于判斷當(dāng)前音頻是音樂還是噪音的二分類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州貝哆蜂智能有限公司,未經(jīng)杭州貝哆蜂智能有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010539625.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





