[發明專利]樂譜識別方法、裝置、設備及存儲介質在審
| 申請號: | 202110322920.5 | 申請日: | 2021-03-26 |
| 公開(公告)號: | CN112926603A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 梅亞琦;韓寶強;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06K9/46 | 分類號: | G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 姚維 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樂譜 識別 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能技術領域,公開了一種樂譜識別方法、裝置、設備及存儲介質,用于提高手寫樂譜的識別效果。該方法包括:獲取待識別手寫樂譜圖像;根據預設尺寸,對待識別手寫樂譜圖像進行調整,并基于調整后的手寫樂譜圖像提取待識別圖像集;將待識別圖像集輸入預置的特征提取模型進行特征提取,得到待識別圖像集的樂譜特征矩陣;將樂譜特征矩陣輸入預置的特征識別模型中進行識別,得到初始識別結果矩陣;調用損失函數對初始識別結果矩陣進行優化,得到手寫樂譜識別結果。本申請中方法能夠提高對手寫樂譜識別的效果,使識別結果更加準確。此外,本發明還涉及區塊鏈技術,手寫樂譜的相關信息可存儲于區塊鏈中。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種樂譜識別方法、裝置、設備及存儲介質。
背景技術
一直以來,音樂大多一直通過手寫樂譜進行傳播。隨著時間的推移,為了保護和傳播優美音樂遺產,將樂譜進行數字化并進行保存至關重要。而如今全球等待錄制的樂譜數以萬計,人工錄制費時費力又容易出差錯,無疑對音樂制作者和傳播者帶來了極大的困難,因此,人們逐漸開始尋求能夠自動識別樂譜并進行記錄的技術手段。
現有的樂譜圖片識別技術可以將樂譜圖像轉換為機器可讀格式,其中有一些現有工具也能夠對樂譜圖片進行自動識別。
但在現有的技術中,由于人們的手寫樣式數不勝數,筆跡也參差不齊,軟件辨識的準確度會大幅度下降,故現有的樂譜圖片識別技術對手寫的樂譜識別錯誤較多,識別結果不準確。
發明內容
本發明的主要目的在于解決現有的樂譜圖片識別技術對手寫的樂譜識別錯誤較多,識別結果不準確的問題。
本發明第一方面提供了一種樂譜識別方法,包括:
獲取待識別手寫樂譜圖像;
根據預設尺寸,對所述待識別手寫樂譜圖像進行調整,并基于調整后的手寫樂譜圖像提取待識別圖像集;
將所述待識別圖像集輸入預置的特征提取模型進行特征提取,得到所述待識別圖像集的樂譜特征矩陣;
將所述樂譜特征矩陣輸入預置的特征識別模型中進行識別,得到初始識別結果矩陣;
調用損失函數對所述初始識別結果矩陣進行優化,得到手寫樂譜識別結果。
可選的,在本發明第一方面的第一種實現方式中,所述根據預設尺寸,對所述待識別手寫樂譜圖像進行調整,并基于調整后的手寫樂譜圖像提取待識別圖像集包括:
根據所述待識別手寫樂譜圖像中的內容位置,將所述待識別手寫樂譜圖像分割成多個切分圖像片;
在保持所述切分圖像片的長寬比例不變的前提下,將所述多個切分圖像片中每個切分圖像片像素高度調整為預設像素高度,得到多個調整圖像片;
將所述調整圖像片按原順序進行排列,得到待識別圖像集。
可選的,在本發明第一方面的第二種實現方式中,所述特征提取模型包括卷積層和池化層,所述將所述待識別圖像集輸入預置的特征提取模型進行特征提取,得到所述待識別圖像集的樂譜特征矩陣包括:
將所述待識別圖像集輸入至所述卷積層進行樂譜特征提取,得到樂譜特征圖像集;
將樂譜特征圖像集輸入至所述池化層進行池化操作,將所述樂譜特征圖像集中的手寫樂譜圖像按所述預設尺寸輸出,得到所述待識別圖像集的樂譜特征矩陣。
可選的,在本發明第一方面的第三種實現方式中,所述特征識別模型包括雙向長短期記憶網絡層和密集層,所述將所述樂譜特征矩陣輸入預置的特征識別模型中進行識別,得到初始識別結果矩陣包括:
將所述樂譜特征矩陣輸入至所述雙向長短期記憶網絡層中進行節奏和音調的識別,得到節奏輸出矩陣和音調輸出矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110322920.5/2.html,轉載請聲明來源鉆瓜專利網。





