[發(fā)明專(zhuān)利]一種簡(jiǎn)譜圖像的自動(dòng)識(shí)別和演奏的方法有效
| 申請(qǐng)?zhí)枺?/td> | 201210086072.3 | 申請(qǐng)日: | 2012-03-28 |
| 公開(kāi)(公告)號(hào): | CN102663423A | 公開(kāi)(公告)日: | 2012-09-12 |
| 發(fā)明(設(shè)計(jì))人: | 鄒征夏;史振威;姚連生;馮亞春;孫詩(shī)炎 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京航空航天大學(xué) |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06K9/66;G10L13/04 |
| 代理公司: | 北京慧泉知識(shí)產(chǎn)權(quán)代理有限公司 11232 | 代理人: | 王順榮;唐愛(ài)華 |
| 地址: | 100191*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 簡(jiǎn)譜 圖像 自動(dòng)識(shí)別 演奏 方法 | ||
1.一種簡(jiǎn)譜圖像的自動(dòng)識(shí)別和演奏的方法,其特征在于:該方法具體步驟如下:
步驟一:簡(jiǎn)譜圖像預(yù)處理
此階段的輸入為一幅簡(jiǎn)譜圖像,輸出為一張?zhí)蕹柙~、水印無(wú)關(guān)信息,并經(jīng)過(guò)旋轉(zhuǎn)校正的簡(jiǎn)譜圖像;其作用是為簡(jiǎn)譜基元的識(shí)別窗口劃定做好準(zhǔn)備,其具體實(shí)現(xiàn)過(guò)程如下:
1.1、自動(dòng)檢測(cè)簡(jiǎn)譜傾斜角度并校正
為了糾正掃描輸入時(shí)造成的簡(jiǎn)譜傾斜,此階段采用Hough變換直線檢測(cè)方法檢測(cè)簡(jiǎn)譜下劃線傾斜角度,并對(duì)傾斜的簡(jiǎn)譜圖像進(jìn)行旋轉(zhuǎn)校正;
1.2、自動(dòng)去除水印
簡(jiǎn)譜圖片的彩色區(qū)域,一定是圖片中水印的區(qū)域,剔除簡(jiǎn)譜圖片中的彩色區(qū)域中的信息,避免水印對(duì)識(shí)別造成的干擾;
1.3、簡(jiǎn)譜圖像二值化
將輸入的簡(jiǎn)譜圖像轉(zhuǎn)換成黑白圖像,目標(biāo)區(qū)域像素值為1,背景區(qū)域像素值為0;此階段二值化的方法采用全局最大類(lèi)間方差閾值法即OTSU,即按照整幅簡(jiǎn)譜圖像灰度特性確定二值化閾值,將簡(jiǎn)譜圖像分成背景和目標(biāo)兩部分,使背景和目標(biāo)之間的方差最大;
1.4、自動(dòng)分離標(biāo)題、歌詞無(wú)關(guān)信息
從形態(tài)各異的歌詞、標(biāo)題及其他干擾信息中提取簡(jiǎn)譜行的位置是后續(xù)識(shí)別的基礎(chǔ);首先,將去除水印、旋轉(zhuǎn)校正并二值化之后的簡(jiǎn)譜圖片進(jìn)行歸一化橫向投影,得到一個(gè)列向量ColumnSum,設(shè)圖片大小為M×N,則
其中,f(x,y)表示整張簡(jiǎn)譜第x行第y列的像素值,N為簡(jiǎn)譜圖片列數(shù);
但在某些簡(jiǎn)譜中,由于行與行之間的結(jié)構(gòu)過(guò)于緊湊,會(huì)造成橫向投影的粘連,剔除該列向量中元素值小于0.03的元素,剩下的元素所在位置就是數(shù)字音符主干、歌詞以及標(biāo)題主干所在行的位置;
將小節(jié)線作為含有簡(jiǎn)譜的行的特征進(jìn)行提取,分離出簡(jiǎn)譜段;首先,用3×3的掩膜對(duì)分離出的每一行塊灰度圖像進(jìn)行濾波,
其中,f(i,j)表示簡(jiǎn)譜塊中第i行第j列的像素值;表示濾波后簡(jiǎn)譜塊中第i行第j列的像素值;
將濾波后的行塊進(jìn)行二值化處理,對(duì)二值化處理之后的簡(jiǎn)譜塊進(jìn)行縱向歸一化投影,
其中,fB(i,j)為濾波并進(jìn)行二值化后簡(jiǎn)譜塊中第i行第j列的像素值,I為該簡(jiǎn)譜塊的總行數(shù);
找出RowSum中大于0.6的元素對(duì)應(yīng)的簡(jiǎn)譜塊中的區(qū)域,對(duì)這些小區(qū)域依次進(jìn)行Harris角點(diǎn)檢測(cè),如果某個(gè)小區(qū)域的角點(diǎn)數(shù)等于2,則認(rèn)為該行塊存在小節(jié)線,確認(rèn)該行塊是含有簡(jiǎn)譜部分的行;否則將該行塊所有信息濾除;經(jīng)過(guò)以上處理后,已去除任何無(wú)關(guān)信息行得到簡(jiǎn)譜的正文部分;
最后將每一塊含有簡(jiǎn)譜的簡(jiǎn)譜行的起始行坐標(biāo)存儲(chǔ)在向量RowStart中,將終止行坐標(biāo)存儲(chǔ)在向量RowEnd中,則RowStart(m)、RowEnd(m)就表示簡(jiǎn)譜中第m行有用信息所在的起始行坐標(biāo)和終止行坐標(biāo);
步驟二:簡(jiǎn)譜基元識(shí)別
其作用是對(duì)簡(jiǎn)譜基元位置進(jìn)行自動(dòng)定位、智能識(shí)別,識(shí)別簡(jiǎn)譜基元所使用的方法為支持向量機(jī)即Support?Vectors?Machine,SVM;其具體實(shí)現(xiàn)過(guò)程如下:
2.1、識(shí)別窗口定位
識(shí)別窗口的定位包含兩方面內(nèi)容:1)、對(duì)存在簡(jiǎn)譜的譜段中簡(jiǎn)譜符號(hào)基元的位置進(jìn)行定位,以確定每一個(gè)有效基元的位置坐標(biāo);2)對(duì)簡(jiǎn)譜標(biāo)題附近的調(diào)式符號(hào)基元位置進(jìn)行定位,以確定簡(jiǎn)譜調(diào)式符號(hào)基元的位置坐標(biāo),為基元的識(shí)別做好準(zhǔn)備;
2.1.1對(duì)存在簡(jiǎn)譜的譜段中簡(jiǎn)譜符號(hào)基元的位置進(jìn)行定位
首先將包含簡(jiǎn)譜的行的主干部分進(jìn)行縱向投影,根據(jù)投影所獲得的行向量來(lái)分離出每一個(gè)單獨(dú)的符號(hào)基元的位置,并且將每一個(gè)符號(hào)基元的列起始坐標(biāo)存儲(chǔ)在向量ColumnStart中,將列終止坐標(biāo)存儲(chǔ)在向量ColumnEnd中;則ColumnStart(n)、ColumnEnd(n)就表示該簡(jiǎn)譜行中第n個(gè)基元所在的起始列坐標(biāo)和終止列坐標(biāo);當(dāng)前定位位置稱(chēng)之為當(dāng)前符號(hào)基元的“識(shí)別窗口”;
為了獲得更好的簡(jiǎn)譜圖像二值化效果,盡可能多的保留每一塊識(shí)別窗口所包含的有用信息,此階段對(duì)每一個(gè)含有基元的“識(shí)別窗口”進(jìn)行第二次二值化處理,方法是抽取各個(gè)識(shí)別窗口對(duì)應(yīng)的灰度圖像的區(qū)域,利用局部最大類(lèi)間方差法對(duì)每個(gè)簡(jiǎn)譜基元區(qū)域進(jìn)行二值化處理;
二值化之后將每個(gè)含有簡(jiǎn)譜基元的區(qū)域降采樣整合為20×20的標(biāo)準(zhǔn)樣本,用于接下來(lái)分類(lèi)器識(shí)別,絕大部分的簡(jiǎn)譜中只分離得到14類(lèi)有用的基元,它們是:
數(shù)字:“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”,
符號(hào):“浮點(diǎn)”、“無(wú)效字符”、“小節(jié)線”、“延音線”、“升記號(hào)”、“降記號(hào)”;
2.1.2對(duì)簡(jiǎn)譜標(biāo)題部分的調(diào)式符號(hào)位置進(jìn)行定位
在每張簡(jiǎn)譜圖片的標(biāo)題附近都會(huì)注明簡(jiǎn)譜的調(diào)式,如“1=C”-C大調(diào)演奏方式、“1=bB”-降B大調(diào)演奏方式,首先對(duì)表示調(diào)式的英文大寫(xiě)字母C、D、E、F、G、A、B及升降記號(hào)進(jìn)行定位,一些簡(jiǎn)譜在標(biāo)題附近混雜有網(wǎng)址、作者姓名信息,這其中也會(huì)包含很多英文大寫(xiě)字母,會(huì)對(duì)自動(dòng)檢測(cè)調(diào)式符號(hào)的定位造成干擾,通過(guò)觀察發(fā)現(xiàn),每一張簡(jiǎn)譜在表示調(diào)式的字母前都有“=”這一明顯特征,通過(guò)模板匹配和投影法的結(jié)合使用可以找到“=”所在的位置,繼而確定表示調(diào)式的英文大寫(xiě)字母、升降記號(hào)的位置,接下來(lái)同樣采取2.1.1中的方法,將含有英文字母、升降記號(hào)的識(shí)別窗口局部二值化,再整合為20×20的標(biāo)準(zhǔn)字母樣本,用于接下來(lái)分類(lèi)器的識(shí)別;
2.2、構(gòu)建樣本分類(lèi)器
選用“支持向量機(jī)”即SVM作為樣本分類(lèi)的方法,SVM在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出特有的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合其他機(jī)器學(xué)習(xí)問(wèn)題中;
采用一對(duì)一即one-against-one的多分類(lèi)方法,在該方法中,在每?jī)深?lèi)樣本間都需要訓(xùn)練一個(gè)SVM二值分類(lèi)器,然后將所有的分類(lèi)器的分類(lèi)結(jié)果進(jìn)行投票,來(lái)決定屬于多類(lèi)樣本中的哪一類(lèi);對(duì)于N分類(lèi)問(wèn)題,一共需要訓(xùn)練個(gè)SVM二值分類(lèi)器;
2.3、多分類(lèi)識(shí)別
此階段需要對(duì)三方面內(nèi)容進(jìn)行識(shí)別:1)對(duì)音符基元的分類(lèi),2)對(duì)基元周?chē)鷧^(qū)域符號(hào)的識(shí)別,3)對(duì)簡(jiǎn)譜調(diào)式基元的分類(lèi);
2.3.1音符基元的分類(lèi)
音符基元的基本類(lèi)型為:“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“浮點(diǎn)”、“無(wú)效字符”、“小節(jié)線”、“延音線”、“升記號(hào)”、“降記號(hào)”,共14類(lèi),所以,一共需要訓(xùn)練
這里沒(méi)有對(duì)樣本進(jìn)行額外的特征提取,而是直接將二值化后20×20的樣本拉伸為400×1的特征向量用于分類(lèi)器的訓(xùn)練;訓(xùn)練選取的核函數(shù)為線性核函數(shù)即linear,選取懲罰因子C=8000,每個(gè)二值分類(lèi)器訓(xùn)練所輸入的正負(fù)樣本各250個(gè);
2.3.2基元周?chē)鷧^(qū)域符號(hào)的識(shí)別
對(duì)基元分類(lèi)完成之后,接下來(lái)要對(duì)基元周?chē)鷧^(qū)域可能出現(xiàn)的輔助符號(hào)進(jìn)行識(shí)別,方法如下:
設(shè)當(dāng)前識(shí)別窗口位于第m行簡(jiǎn)譜的第n個(gè)基元上,則行坐標(biāo)RowStart(m)、RowEnd(m)和列坐標(biāo)ColumnStart(n)、ColumnEnd(n)唯一確定了當(dāng)前識(shí)別窗口的位置,接下來(lái)在識(shí)別窗口的上方和下方分別延拓DetaTop和DetaBase個(gè)像素寬度,設(shè)
DetaTop=c1[RowStart(m)-RowEnd(m)]
DetaEnd=c2[RowStart(m)-RowEnd(m)]
經(jīng)過(guò)統(tǒng)計(jì)得知,當(dāng)曲譜行與行之間結(jié)構(gòu)較為緊湊時(shí),取c1=0.8,c2=0.5;當(dāng)曲譜行與行之間結(jié)構(gòu)較為松散時(shí),取c1=2,c2=2;
接下來(lái)對(duì)識(shí)別窗口上方和下方延拓區(qū)進(jìn)行分析,進(jìn)行橫向投影和縱向投影,根據(jù)兩條投影向量確定上下方延拓區(qū)是否存在高音記號(hào)、低音記號(hào)和下劃線;
2.3.3簡(jiǎn)譜調(diào)式基元的分類(lèi)
簡(jiǎn)譜調(diào)式基元的識(shí)別實(shí)質(zhì)上是對(duì)C、D、E、F、G、A、B七個(gè)大寫(xiě)英文字母以及“升記號(hào)”、“降記號(hào)”共九類(lèi)樣本的識(shí)別,識(shí)別方法同樣選用SVM,選取一對(duì)一即one-against-one的方法構(gòu)建多類(lèi)分類(lèi)器,共需要訓(xùn)練個(gè)二值分類(lèi)器;這里同樣沒(méi)有對(duì)調(diào)式基元樣本進(jìn)行額外的特征提取,而是直接將二值化后20×20的樣本拉伸為400×1的特征向量用于分類(lèi)器的訓(xùn)練;訓(xùn)練選取的核函數(shù)為線性核函數(shù)即linear,選取懲罰因子C=8000,每個(gè)二值分類(lèi)器訓(xùn)練所輸入的正負(fù)樣本各15個(gè);
步驟三:數(shù)字音頻的生成及播放
其作用是對(duì)已經(jīng)識(shí)別完畢的簡(jiǎn)譜進(jìn)行后續(xù)處理,轉(zhuǎn)化為數(shù)字音頻文件,并增加伴奏、和聲對(duì)其進(jìn)行渲染,使之更加悅耳、動(dòng)聽(tīng);其具體實(shí)現(xiàn)過(guò)程如下:
3.1、音符編碼
音符基元識(shí)別結(jié)束后,需要對(duì)其進(jìn)行編碼處理;每個(gè)音符的編碼為一個(gè)8位二進(jìn)制編碼,占用內(nèi)存空間1byte;
編碼的高四位表示“節(jié)奏”、“高音低音記號(hào)”信息,是對(duì)識(shí)別窗口上下延拓區(qū)信息的記錄;編碼的低四位表示“數(shù)字音高”、“小節(jié)線”、“延音線”信息,是對(duì)識(shí)別窗口內(nèi)信息的記錄;
3.2、構(gòu)建音色庫(kù)
為了模擬各種樂(lè)器的播放效果,采集了鋼琴、吉他、小號(hào)、小提琴10類(lèi)樂(lè)器的音色,音高范圍從C2,138.541Hz,C大調(diào)低音do,到B4,988.256Hz,C大調(diào)高音xi;將其轉(zhuǎn)化為WAV格式的標(biāo)準(zhǔn)音頻存儲(chǔ)在音色庫(kù)中供系統(tǒng)調(diào)用;
3.3音符語(yǔ)義理解、音頻播放
對(duì)一整張簡(jiǎn)譜完成識(shí)別、編碼之后,需要結(jié)合每一個(gè)音符所處的上下文環(huán)境來(lái)對(duì)其實(shí)際含義進(jìn)行理解,這里采用的是一種多級(jí)流水線式的理解型智能播放方法,即每次讀取音符編碼隊(duì)列中的某個(gè)編碼,同時(shí)對(duì)之前某一位編碼對(duì)應(yīng)的音頻文件進(jìn)行播放,同時(shí)根據(jù)編碼隊(duì)列自動(dòng)計(jì)算出該音符的播放時(shí)長(zhǎng),并且智能添加變奏、調(diào)整音強(qiáng);
3.4、伴奏的構(gòu)建
提供一種簡(jiǎn)單有效的自動(dòng)添加伴奏的方法,可以使播放效果更加飽滿(mǎn)、富有感染力;
3.4.1自動(dòng)調(diào)整強(qiáng)音
在每次將要播放當(dāng)前音符時(shí),查詢(xún)前一個(gè)音符是否為“小節(jié)線”,如果是,則該音符作為每小節(jié)的第一拍,音強(qiáng)需要加重,否則不做處理;
3.4.1自動(dòng)添加鼓點(diǎn)
添加鼓點(diǎn)的原理同上,但之前需要計(jì)算兩個(gè)小節(jié)線之間的節(jié)拍數(shù)是2拍、3拍還是4拍;如果每?jī)蓚€(gè)小節(jié)間的音符共有2拍,則歌曲是拍節(jié)奏型,在播放第一拍的同時(shí)播放拍節(jié)奏鼓點(diǎn);
如果每?jī)蓚€(gè)小節(jié)間的音符共有3拍,則歌曲是拍節(jié)奏型,在播放第一拍的同時(shí)播放拍節(jié)奏鼓點(diǎn);
如果每?jī)蓚€(gè)小節(jié)間的音符共有4拍,則歌曲是拍節(jié)奏型,在播放第一拍的同時(shí)播放拍節(jié)奏鼓點(diǎn)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210086072.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 在帶有圖像輸入單元的便攜式終端中識(shí)別字符的方法
- 基于無(wú)線射頻RFID的檔案管理系統(tǒng)
- 一種防盜監(jiān)控系統(tǒng)的自動(dòng)識(shí)別控制設(shè)備
- 一種基于視頻識(shí)別的隧道運(yùn)行安全事件檢測(cè)系統(tǒng)
- 存儲(chǔ)擴(kuò)充裝置自動(dòng)識(shí)別系統(tǒng)及存儲(chǔ)擴(kuò)充裝置自動(dòng)識(shí)別配置方法
- 快遞物流件自動(dòng)識(shí)別分揀系統(tǒng)
- 一種基于無(wú)線技術(shù)的低功耗自動(dòng)識(shí)別終端設(shè)計(jì)方法
- 一種火車(chē)車(chē)輛、車(chē)號(hào)自動(dòng)識(shí)別裝置
- 一種火車(chē)車(chē)輛、車(chē)號(hào)自動(dòng)識(shí)別裝置及其使用方法
- 一種電商用條碼自動(dòng)識(shí)別裝置





