[發明專利]一種基于殘差注意力Transformer的光學樂譜圖像識別方法在審
| 申請號: | 202111522531.3 | 申請日: | 2021-12-14 |
| 公開(公告)號: | CN114359946A | 公開(公告)日: | 2022-04-15 |
| 發明(設計)人: | 溫翠紅;朱龍嬌;劉嘉怡 | 申請(專利權)人: | 湖南師范大學 |
| 主分類號: | G06V30/42 | 分類號: | G06V30/42;G06V30/413;G06V10/82;G06V10/764;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410081 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 transformer 光學 樂譜 圖像 識別 方法 | ||
1.一種基于殘差注意力Transformer的光學樂譜圖像識別方法,其特征是,所述方法包括以下步驟:
S1:獲取待識別的光學樂譜圖像并預處理;
所述步驟S1對待識別的樂譜圖像預處理具體包括以下步驟:
S1-1:獲取待識別樂譜圖像的列像素和;
S1-2:根據上述所求列像素和,去除圖像中非音符范圍的像素,只保留所有的音符像素并將其按原順序拼接成預處理后的樂譜圖像;
S2:通過預先訓練好的基于殘差注意力Transformer的光學樂譜圖像識別模型,提取所述待識別樂譜圖像中的音符序列特征;
所述步驟S2具體包括以下步驟:
S2-1:基于殘差注意力Transformer的光學樂譜圖像識別模型由一個編碼器層、一個解碼器層和一個注意力層構成;
S2-2:預處理后的樂譜圖像首先被輸入到編碼器層,編碼器層由淺層的預訓練Resnet網絡和兩層雙向的LSTM神經網絡組成,并且在Resnet網絡的輸出與最后一層LSTM網絡的輸出之間建立一個殘差連接,然后得到編碼器層的輸出特征圖
S2-3:將編碼器層與解碼器層的輸出特征圖進行維度拼接,再加上對其PositionalEncoding后的值,共同作為注意力層的輸入;在注意力層中,利用殘差注意力機制學習權重分布系數,對重點關注區域加強關注,抑制無關區域的關注,進一步捕獲音符序列的特征信息;同時采用并行計算的統一掩碼語言模型防止泄露未來信息和加快模型訓練;最后,注意力層的最后一層輸出特征信息向量;
S3:根據獲得的音符序列特征,利用所述識別模型對所述待識別的光學樂譜圖像內容進行分析與識別,得到數字化音符序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南師范大學,未經湖南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111522531.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于互聯網的云會計監管裝置
- 下一篇:分類裝置、冰箱、分類方法和存儲介質
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統
- 一種基于Transformer模型的機器翻譯模型優化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





