[發明專利]一種基于殘差注意力Transformer的光學樂譜圖像識別方法在審
| 申請號: | 202111522531.3 | 申請日: | 2021-12-14 |
| 公開(公告)號: | CN114359946A | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 溫翠紅;朱龍嬌;劉嘉怡 | 申請(專利權)人: | 湖南師范大學 |
| 主分類號: | G06V30/42 | 分類號: | G06V30/42;G06V30/413;G06V10/82;G06V10/764;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410081 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 transformer 光學 樂譜 圖像 識別 方法 | ||
本發明提出了一種基于殘差注意力Transformer的神經網絡方法用于光學樂譜圖像識別。該識別過程的步驟為:通過建立基于殘差注意力Transformer的樂譜圖像識別模型,提取樂譜圖像中的音符序列特征;根據捕獲的音符序列特征,將樂譜圖像中的音符序列數字化。本發明采用預訓練的淺層殘差卷積神經網絡初始化參數,并提取音符基本特征,接著利用循環神經網絡對獲得的音符特征和標簽序列分別進行編碼和解碼,提取音符序列的關聯信息;而基于殘差注意力Transformer結構,對重點關注區域加強關注,抑制無關區域的關注,進一步提取音符序列上下文特征;同時,當訓練模型時,使用并行計算的統一掩碼語言模型,有效地降低了音符序列錯誤率,縮短了模型訓練時間。
技術領域
本發明涉及樂譜圖像數字化技術領域,具體涉及一種基于殘差注意力Transformer的光學樂譜圖像識別方法。
背景技術
隨著計算機技術的飛速發展,文本、圖像、音頻等內容正逐步被轉化為數字化信息資源保存、開發利用和傳播,其中,紙介質樂譜的數字化對于數字音樂圖書館、計算機音樂輔助教學和音樂信息檢索的發展十分重要。紙介質樂譜的數字化就是利用計算機將紙質樂譜內容轉換為數字化的音樂格式文件(如MIDI文件)——即光學樂譜識別技術。通過光學樂譜識別技術將樂譜數字化后存儲在計算機中,不僅存貯空間小,傳播范圍廣、速度快,而且相比紙質樂譜更容易長時間完好保存。另外,數字化樂譜使得傳統手工方式的樂曲創作、修改、演奏、傳播變得高級,為人類的音樂活動帶來了生產方式的根本變革。再者,用戶在使用數字化樂譜時不僅可以通過關鍵字(如曲名、作者、發表年代等信息)進行文本檢索,還可以基于音樂內容(如某段旋律)進行檢索,從而查詢到想要的樂曲。這些功能的實現依賴于不斷進步的光學樂譜識別技術,然而,目前光學樂譜識別準確率還較低。因此,光學樂譜識別技術的提高仍然是一項值得研究的課題。
傳統光學樂譜識別的主要步驟包括:圖像預處理、譜線檢測與刪除、原始音符對象(如符頭、符干、符尾、譜號、休止符等)識別、特征音符對象重建、音符語義數字化編碼。在這些步驟中有基于音符幾何特征、基于音符先驗知識或基于模板匹配等方法,為了實現這些方法,一方面需要專業音樂人的音樂知識和復雜的算法,因此這限制了研究人員類別;另一方面,這五個步驟中的每一步都難以達到很高的精度,并且每一步驟產生的一定數量的誤差在后續的步驟中可能會呈指數放大。然而,機器學習的興起使得光學樂譜識別簡單化。研究者不需要音樂專業知識就可以手工提取音符特征,然后采用隱馬爾科夫模型、支持向量機和最小K鄰近等機器學習模型識別出音符,音符識別準確率有了顯著提高。但是,機器學習類方法仍需要人工提取音符特征,耗時耗力,并且當人工提取的音符特征不足或不夠準確,對準確性有很大的影響。
近些年來,以深度卷積神經網絡和循環神經網絡為代表的監督學習在圖像分類、目標檢測、機器翻譯等任務中發揮了顯著作用。雖然卷積神經網絡能有效地捕獲單個音符的豐富特征,但并不能提取到豐富的音符序列特征,而循環神經網絡雖然可以解決音符序列上下文信息提取不足的問題,卻存在音符序列過長導致梯度消失的問題。再者,在使用連接時序分類損失函數訓練模型時,其串行計算方式會導致訓練時間過長且模型難以擬合。基于現有的光學樂譜識別方案效率低,且音符序列識別準確率還有待提升,因此,本發明提出了一種基于殘差注意力Transformer的光學樂譜圖像識別方法解決上述問題。
發明內容
本發明的目的在于提出一種基于殘差注意力Transformer的光學樂譜圖像識別方法,以解決現有的光學樂譜圖像識別技術對音符序列識別準確率不高且效率低的問題。
本發明提供的一種基于殘差注意力Transformer的光學樂譜圖像識別方法,包括以下內容:
S1:獲取待識別的光學樂譜圖像并預處理;
S2:通過預先訓練好的基于殘差注意力Transformer的光學樂譜圖像識別模型,提取所述待識別樂譜圖像中的音符序列特征;
S3:根據所述音符序列特征,對所述待識別的光學樂譜圖像內容進行分析與識別,得到數字化音符序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南師范大學,未經湖南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111522531.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于互聯網的云會計監管裝置
- 下一篇:分類裝置、冰箱、分類方法和存儲介質
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





