[發明專利]結合殘差卷積結構和循環神經網絡的樂譜圖像識別方法在審
| 申請號: | 201910571835.5 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110443127A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 吳瓊;李鏘;關欣 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34;G06K9/62;G06N3/04 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樂譜圖像 循環神經網絡 網絡模型 殘差 構建 卷積神經網絡 語義信息 數據集 音符 時序 模型結構 數據集中 損失函數 訓練模型 卷積 鏈式 學習 標簽 輸出 分類 預測 網絡 | ||
1.一種基于殘差結構卷積神經網絡和循環神經網絡的樂譜圖像識別方法,包括以下步驟:
1)建立樂譜圖像的數據集:對已有數據集上進行數據增強以擴充數據集,隨機選取部分數據加入柏林噪聲,高斯白噪聲,彈性形變等以模擬不理想情況下樂譜圖像數據,并將其劃分為訓練集、驗證集和測試集;
2)構建模型:將殘差結構卷積神經網絡和循環神經網絡結合,構建深度學習網絡模型,設置模型結構參數,殘差結構卷積神經網絡中由5層殘差塊構成,每一層殘差塊內部由卷積層、BN層、激活函數層三部分構成,每一層殘差塊后連接最大池化層;五層殘差塊中卷積核尺寸均為3*3,卷積核數量逐層變化分別為32、64、128、256和256,最大池化層尺寸為2*2,且步長為2,激活函數采用LeakyReLU函數;循環神經網絡采用雙向長短時記憶網絡BiLSTM,共包含兩層BiLSTM,每一層中隱藏層由512個神經網絡單元構成;
3)訓練模型:利用數據集對構建好的深度學習網絡模型進行訓練,深度學習網絡模型輸入為數據集中樂譜圖像,真值標簽為樂譜圖像中各音符對應的語義信息,通過鏈式時序分類損失函數逐步調整網絡各參數并達到最優,最終輸出音符語義信息的預測值;
4)利用樂譜顯示軟件Verovio將深度學習網絡輸出的預測值轉化為結果易于觀察的樂譜圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910571835.5/1.html,轉載請聲明來源鉆瓜專利網。





