[發(fā)明專利]一種基于圖像和音頻的樂(lè)譜雙重識(shí)別系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202011420871.0 | 申請(qǐng)日: | 2020-12-08 |
| 公開(kāi)(公告)號(hào): | CN113076967B | 公開(kāi)(公告)日: | 2022-09-23 |
| 發(fā)明(設(shè)計(jì))人: | 袁存鼎;秦興辰;黃煌 | 申請(qǐng)(專利權(quán))人: | 無(wú)錫樂(lè)騏科技股份有限公司 |
| 主分類號(hào): | G06V10/75 | 分類號(hào): | G06V10/75;G06V10/764;G10H1/00 |
| 代理公司: | 無(wú)錫智麥知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32492 | 代理人: | 王普慧 |
| 地址: | 214000 江蘇省*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖像 音頻 樂(lè)譜 雙重 識(shí)別 系統(tǒng) | ||
本發(fā)明公開(kāi)了一種基于圖像和音頻的雙重識(shí)別系統(tǒng),該系統(tǒng)屬于樂(lè)理技術(shù)領(lǐng)域。所述系統(tǒng)主要用于對(duì)紙質(zhì)樂(lè)譜的原始位圖進(jìn)行識(shí)別,通過(guò)圖像識(shí)別和音頻識(shí)別相結(jié)合的方式,分別生成第一音符信息和第二音符信息,按照相同格式進(jìn)行匹配,匹配相同即實(shí)現(xiàn)確認(rèn),匹配不同則由用戶根據(jù)原始位圖確定識(shí)別的第一音符信息或第二音符信息進(jìn)行確認(rèn),最終輸出生成的樂(lè)譜。本發(fā)明的提出是為了解決現(xiàn)有技術(shù)中僅通過(guò)圖像識(shí)別難以實(shí)現(xiàn)校準(zhǔn),而僅通過(guò)音頻識(shí)別又無(wú)法獲得樂(lè)譜圖像的問(wèn)題,在有大量樂(lè)譜需要識(shí)別的情況下,省去人工逐一復(fù)核,僅針對(duì)音頻輔助的一輪復(fù)核出現(xiàn)偏差的情況才需要人工二次復(fù)核,大大提高了識(shí)別精度和識(shí)別效率的同時(shí)減少了成本。
技術(shù)領(lǐng)域
本發(fā)明涉及樂(lè)理技術(shù)領(lǐng)域,特別涉及一種基于圖像和音頻的樂(lè)譜雙重識(shí)別系統(tǒng)。
背景技術(shù)
隨著科技的發(fā)展,人們的生活逐漸向無(wú)紙化發(fā)展,無(wú)紙化的優(yōu)勢(shì)是易保存、易分享,相對(duì)于傳統(tǒng)的紙質(zhì)材料,無(wú)紙化的應(yīng)用具備了更加顯著的電子化特征。在樂(lè)理技術(shù)領(lǐng)域,針對(duì)已有的一些紙質(zhì)樂(lè)譜,現(xiàn)有技術(shù)通常是通過(guò)圖像識(shí)別的方法來(lái)將其電子化,例如申請(qǐng)?zhí)枮?01810193256.7的中國(guó)發(fā)明專利中提出了一種樂(lè)譜識(shí)別系統(tǒng)及識(shí)別方法,通過(guò)圖像輸入模塊、圖像預(yù)處理模塊、低秩圖像模塊、差分圖像模塊、譜線生成模塊、譜線刪除模塊、音符圖像模塊、音符對(duì)比識(shí)別模塊和音符輸出模塊可以實(shí)現(xiàn)最后樂(lè)譜的輸出,公開(kāi)號(hào)為CN106446952B的中國(guó)發(fā)明專利中也提出了一種樂(lè)譜圖像識(shí)別方法及裝置,通過(guò)獲得待處理的五線譜圖像;對(duì)待處理的五線譜圖像采用邊緣檢測(cè)方法描繪出圖像的邊緣信息,再通過(guò)直線檢測(cè)方法檢測(cè)出五線位置坐標(biāo);采用預(yù)設(shè)的音符分類器,對(duì)待處理的五線譜圖像進(jìn)行音符定位分割,得到每個(gè)完整音符在圖像中的位置;采用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)對(duì)分割獲得的音符符頭進(jìn)行識(shí)別,判斷是實(shí)心符頭還是空心符頭,并得到符頭的位置;根據(jù)所述得到的五線位置坐標(biāo)、每個(gè)完整音符的相對(duì)位置、是實(shí)心符頭還是空心符頭及符頭的位置,識(shí)別出每個(gè)完整音符,最終實(shí)現(xiàn)樂(lè)譜的輸出。因此,通過(guò)圖像識(shí)別的方法獲得最終的樂(lè)譜輸出相對(duì)屬于一項(xiàng)較為成熟的技術(shù),但是在圖像識(shí)別的過(guò)程中,圖像的識(shí)別精度往往達(dá)不到100%,即可能會(huì)面臨著識(shí)別不出或識(shí)別出錯(cuò)的問(wèn)題,當(dāng)有大量樂(lè)譜需要識(shí)別時(shí),人工的檢查核驗(yàn)費(fèi)時(shí)費(fèi)力,且效率低下,因而紙質(zhì)樂(lè)譜電子化過(guò)程中的校驗(yàn)效率及識(shí)別準(zhǔn)確度的提高尤其重要。
發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中樂(lè)譜在通過(guò)圖像識(shí)別的過(guò)程中,針對(duì)模糊圖像容易出現(xiàn)識(shí)別不出或者識(shí)別出錯(cuò)的問(wèn)題,本發(fā)明提出了一種在圖像識(shí)別的基礎(chǔ)上通過(guò)音頻輔助識(shí)別的功能,提高樂(lè)譜識(shí)別的準(zhǔn)確度。
鑒于以上情況,本發(fā)明提出了一種基于圖像和音頻的樂(lè)譜雙重識(shí)別系統(tǒng),包括:
圖像輸入模塊,用于接收輸入樂(lè)譜圖像并傳送至圖像識(shí)別模塊;
圖像識(shí)別模塊,所述圖像識(shí)別模塊用于通過(guò)識(shí)別圖像輸入模塊的原始位圖樂(lè)譜的信息生成識(shí)別圖像并獲得對(duì)應(yīng)的第一音符信息,通過(guò)圖像識(shí)別的方式獲取樂(lè)譜信息,具體包括圖像預(yù)處理模塊、低秩圖像模塊、差分圖像模塊、譜線生成模塊、譜線刪除模塊、音符圖像模塊和音符對(duì)比識(shí)別模塊;
音頻識(shí)別模塊,所述音頻識(shí)別模塊用于通過(guò)獲取原始音頻信息得到原始位圖樂(lè)譜對(duì)應(yīng)的第二音符信息,在音頻識(shí)別模塊中,由于通過(guò)音頻僅可以獲得音符信息和每個(gè)音符對(duì)應(yīng)的時(shí)長(zhǎng)信息,無(wú)法生成圖像,因此,將音頻識(shí)別模塊和圖像識(shí)別模塊相連接,可以從圖像識(shí)別模塊獲得速度記號(hào)后,將速度記號(hào)信息傳送至音頻識(shí)別模塊,從而根據(jù)速度記號(hào)信息和彈奏音符對(duì)應(yīng)的時(shí)長(zhǎng)信息生成與之相匹配的矢量化音符信息并形成對(duì)應(yīng)的識(shí)別圖像;
校準(zhǔn)模塊,所述校準(zhǔn)模塊用于將圖像識(shí)別的第一音符信息與音頻識(shí)別的第二音符信息進(jìn)行校準(zhǔn),使生成對(duì)應(yīng)相同的第一音符信息與第二音符信息;
樂(lè)理解析模塊,所述樂(lè)理解析模塊用于將校準(zhǔn)完成后的音符信息通過(guò)樂(lè)理解析生成對(duì)應(yīng)的樂(lè)譜矢量圖;
樂(lè)譜輸出模塊,所述樂(lè)譜輸出模塊用于將所述樂(lè)理解析模塊得到的樂(lè)譜矢量圖輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于無(wú)錫樂(lè)騏科技股份有限公司,未經(jīng)無(wú)錫樂(lè)騏科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011420871.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置





