[發(fā)明專利]結(jié)合殘差卷積結(jié)構(gòu)和循環(huán)神經(jīng)網(wǎng)絡(luò)的樂譜圖像識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910571835.5 | 申請(qǐng)日: | 2019-06-28 |
| 公開(公告)號(hào): | CN110443127A | 公開(公告)日: | 2019-11-12 |
| 發(fā)明(設(shè)計(jì))人: | 吳瓊;李鏘;關(guān)欣 | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/34;G06K9/62;G06N3/04 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 樂譜圖像 循環(huán)神經(jīng)網(wǎng)絡(luò) 網(wǎng)絡(luò)模型 殘差 構(gòu)建 卷積神經(jīng)網(wǎng)絡(luò) 語(yǔ)義信息 數(shù)據(jù)集 音符 時(shí)序 模型結(jié)構(gòu) 數(shù)據(jù)集中 損失函數(shù) 訓(xùn)練模型 卷積 鏈?zhǔn)?/a> 學(xué)習(xí) 標(biāo)簽 輸出 分類 預(yù)測(cè) 網(wǎng)絡(luò) | ||
本發(fā)明涉及一種基于殘差結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的樂譜圖像識(shí)別方法,包括:1)建立樂譜圖像的數(shù)據(jù)集;2)構(gòu)建模型:將殘差結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合,構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)模型,設(shè)置模型結(jié)構(gòu)參數(shù);3)訓(xùn)練模型:利用數(shù)據(jù)集對(duì)構(gòu)建好的深度學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,深度學(xué)習(xí)網(wǎng)絡(luò)模型輸入為數(shù)據(jù)集中樂譜圖像,真值標(biāo)簽為樂譜圖像中各音符對(duì)應(yīng)的語(yǔ)義信息,通過鏈?zhǔn)綍r(shí)序分類損失函數(shù)逐步調(diào)整網(wǎng)絡(luò)各參數(shù)并達(dá)到最優(yōu),最終輸出音符語(yǔ)義信息的預(yù)測(cè)值。
技術(shù)領(lǐng)域
本發(fā)明是序列化圖像識(shí)別領(lǐng)域的重要分支,將神經(jīng)網(wǎng)絡(luò)應(yīng)用于樂譜圖像的識(shí)別中,采用端對(duì)端的訓(xùn)練方式改進(jìn)傳統(tǒng)框架中出現(xiàn)的問題,實(shí)現(xiàn)對(duì)樂譜圖像實(shí)時(shí)、有效的轉(zhuǎn)換。
背景技術(shù)
樂譜是我們想要學(xué)習(xí)音樂最直接的來源,它對(duì)音符的信息有最為全面的描述。而通常情況下,樂譜是以紙質(zhì)版來保存于圖書館,博物館或者作曲家手中。但是隨著時(shí)間推移,保存環(huán)境的變化,樂譜就會(huì)收到污染,損害等。隨著計(jì)算機(jī)科學(xué)在音樂領(lǐng)域的不斷滲入,計(jì)算機(jī)給人類的音樂活動(dòng)帶來了生產(chǎn)方式的變革,逐漸考慮將紙質(zhì)版樂譜轉(zhuǎn)化為電子版,這樣更容易存儲(chǔ)與保護(hù)。然而,目前人工讀譜和手工操作的樂譜錄入方式成為了樂譜數(shù)字化的瓶頸[1]。隨著計(jì)算機(jī)網(wǎng)絡(luò)、數(shù)字娛樂的不斷發(fā)展,計(jì)算機(jī)音樂成為智能多媒體的重要組成部分并在人機(jī)交互領(lǐng)域扮演著重要的角色。通過光學(xué)音符識(shí)別技術(shù)(Optical MusicRecognition,OMR)讓計(jì)算機(jī)能夠聽懂音樂。此系統(tǒng)由于能簡(jiǎn)便快速地實(shí)現(xiàn)樂譜的計(jì)算機(jī)錄入工作,在電腦音樂、計(jì)算機(jī)輔助作曲及音樂作品數(shù)字化等領(lǐng)域有廣闊的應(yīng)用前景[2]。
OMR研究自1966年以來開始,1966年,Pruslin首次嘗試自動(dòng)識(shí)別樂譜。他的系統(tǒng)能夠識(shí)別出音符的頭和和弦;1970年,Prerau引入了圖像分割的概念來檢測(cè)音樂符號(hào)的原始元素。Kassler隨后對(duì)這兩項(xiàng)OMR創(chuàng)始著作進(jìn)行了修訂,并隨著廉價(jià)光學(xué)掃描儀的普及,OMR研究在20世紀(jì)80年代后期得到了擴(kuò)展。1997年,Bainbridge總結(jié)了現(xiàn)有的技術(shù),并提出了一個(gè)可擴(kuò)展的音樂識(shí)別系統(tǒng),它不局限于特定的原始形狀和語(yǔ)義特征。與Bell一起,他們歸納了OMR系統(tǒng)的通用框架:樂譜圖像預(yù)處理,五線譜檢測(cè)與刪除,音符基元的識(shí)別以及音符基元的重組[3,4]。Homenda和Rebelo提出了將模式識(shí)別研究應(yīng)用在音樂標(biāo)注。Jones等人提出了一項(xiàng)關(guān)于音樂片數(shù)字化、識(shí)別和恢復(fù)的研究[5]。隨后Pruslin于2006年提出將隱馬爾可夫模型(HMM)應(yīng)用于音符的識(shí)別階段,避免了在處理之前對(duì)譜線進(jìn)行刪除的繁瑣步驟,這樣使得學(xué)習(xí)過程是在不需要在標(biāo)簽中指定符號(hào)位置的情況下開始的,這極大地簡(jiǎn)化了訓(xùn)練數(shù)據(jù)的創(chuàng)建[6,7];2009年文獻(xiàn)[2]中提出對(duì)音符基元識(shí)別之前先進(jìn)行預(yù)分割之后再進(jìn)行處理的方法,將輸入的樂譜圖像進(jìn)行預(yù)處理后對(duì)五線譜進(jìn)行檢測(cè)與刪除,采用游程分析與二次投影技術(shù)對(duì)樂譜圖像進(jìn)行處理,先對(duì)圖像中的音符進(jìn)行初步分類,對(duì)每一類的音符采用不同的處理方法,結(jié)合樂譜的語(yǔ)法特征對(duì)樂譜圖像進(jìn)行分析。如果樂譜中的直線在五線譜刪除后或者本身存在較多斷裂時(shí),分割效果將會(huì)下降;2010年文獻(xiàn)[8]中提出基于“作用場(chǎng)”的音符基元關(guān)系,將輸入樂譜圖像進(jìn)行預(yù)處理后對(duì)五線譜進(jìn)行檢測(cè)與刪除,對(duì)音符基元進(jìn)行識(shí)別后對(duì)音符基元之間的關(guān)系利用“作用場(chǎng)”進(jìn)行描述并判斷各基元之間位置關(guān)系,進(jìn)行音符重構(gòu)。但是當(dāng)樂譜復(fù)雜度增加,識(shí)別率降低明顯;2013年在會(huì)議上[9]提出了加入譜線分組提示信息進(jìn)行識(shí)別將輸入圖像進(jìn)行預(yù)處理后加入了描述了被處理樂譜的結(jié)構(gòu)信息,對(duì)樂譜整個(gè)系統(tǒng)的結(jié)構(gòu)進(jìn)行描述,再對(duì)五線譜進(jìn)行檢測(cè)與刪除以及音符的識(shí)別與重構(gòu),在總結(jié)之前研究之后[10],同樣使用了MusicStavesGamera工具包,它提供了許多不同的算法來檢測(cè)圖像中五線譜的位置并刪除。這樣一來就需要人工對(duì)譜線分組提示信息進(jìn)行標(biāo)注,當(dāng)數(shù)據(jù)集在逐漸增加時(shí)耗費(fèi)大量的人力且人工干預(yù)增加了出錯(cuò)的可能。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910571835.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于識(shí)別字跡的方法、裝置及計(jì)算機(jī)可讀介質(zhì)
- 基于層級(jí)神經(jīng)網(wǎng)絡(luò)的圖像-句子描述生成系統(tǒng)及方法
- 基于差異循環(huán)神經(jīng)網(wǎng)絡(luò)的意圖識(shí)別方法
- 一種基于深度學(xué)習(xí)大規(guī)模病歷的輔助診斷系統(tǒng)
- 一種改進(jìn)鯨魚算法的循環(huán)神經(jīng)網(wǎng)絡(luò)短期電力負(fù)荷預(yù)測(cè)方法
- 基于門控循環(huán)神經(jīng)網(wǎng)絡(luò)的非線性均衡方法
- 一種基于卷積核相似性剪枝的循環(huán)神經(jīng)網(wǎng)絡(luò)模型壓縮方法
- 一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)動(dòng)態(tài)磁滯進(jìn)行補(bǔ)償?shù)姆椒跋到y(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的聲音事件檢測(cè)方法
- 一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的駕駛?cè)硕嗖僮髌谔卣魈崛》椒?/a>
- 腦網(wǎng)絡(luò)模型建立方法
- 弱光圖像增強(qiáng)方法及裝置
- 模型訓(xùn)練方法及裝置
- 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型搜索方法、裝置及存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)模型搜索方法、裝置以及電子設(shè)備
- 含有聚類拓?fù)漶詈系纳窠?jīng)網(wǎng)絡(luò)脈沖同步方法及系統(tǒng)
- 多視角的網(wǎng)絡(luò)攻防仿真系統(tǒng)
- 一種多模型訓(xùn)練方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種神經(jīng)網(wǎng)絡(luò)模型生成方法及裝置
- 一種神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)





