[發明專利]基于深度神經網絡的端到端的圖像多字符定位和匹配方法在審
| 申請號: | 201711025494.9 | 申請日: | 2017-10-27 |
| 公開(公告)號: | CN107657256A | 公開(公告)日: | 2018-02-02 |
| 發明(設計)人: | 費行健;潘嶸 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 神經網絡 端到端 圖像 多字 定位 匹配 方法 | ||
1.基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:包括有以下步驟:
S1.令查詢圖片與對應的被查詢圖片為一對圖片對,收集大量的圖片對作為數據集,并對圖片對中查詢圖片中的字符在被查詢圖片中的位置進行標注;
S2.將數據集按照一定比例劃分為三部分,分別為訓練集、驗證集和測試集;
S3.搭建深度神經網絡,利用訓練集中的圖片對作為輸入對深度神經網絡進行訓練,并利用Adam算法對深度神經網絡進行優化;
S4.使用驗證集中的圖片對作為輸入對優化后的深度神經網絡進行驗證,深度神經網絡輸出圖片對中查詢圖片中的字符在被查詢圖片中的定位及匹配結果,由于步驟S1已經對圖片對中查詢圖片中的字符在被查詢圖片中的位置進行標注,因此可計算深度神經網絡在驗證集上的準確率;
S5.重復步驟S3~S4直至深度神經網絡在驗證集上的準確率滿足設定的條件;
S6.將測試集中的圖片對作為輸入對步驟S5訓練好的深度神經網絡進行測試,并根據深度神經網絡輸出的測試結果對深度神經網絡的在測試集上的準確率進行統計,作為對深度神經網絡的評估結果;
S7.對于新的一對圖片對,將其作為深度神經網絡的輸入,即可通過深度神經網絡得到圖片對中查詢圖片中的字符在被查詢圖片中的定位及匹配結果。
2.根據權利要求1所述的基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:所述步驟S3、S4、S6、S7中,將圖片對作為深度神經網絡的輸入時,是將查詢圖片、被查詢圖片的RGB像素值作為兩個矩陣輸入至深度神經網絡中,深度神經網絡經過前向傳播的運算,計算得到的輸出有多個值,這些值的含義是查詢圖片中的字符,按從左到右的順序,在被查詢圖片中的位置坐標。
3.根據權利要求1所述的基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:所述深度神經網絡包括有從左到右依次連接的三層卷積層和兩層全連接層。
4.根據權利要求3所述的基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:所述第一層卷積層的卷積核大小為3x3,卷積核個數為64個,激活函數是relu函數。
5.根據權利要求3所述的基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:第二層卷積層的卷積核大小為3x3,卷積核個數為128個,激活函數是relu函數。
6.根據權利要求3所述的基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:所述第三層卷積層的卷積核大小為3x3,卷積核個數為256,激活函數是relu函數。
7.根據權利要求3所述的基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:所述第一層全連接層的維數為512,激活函數是relu函數。
8.根據權利要求3所述的基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:所述第二層全連接層的維數為512,激活函數是relu函數。
9.根據權利要求1~9任一項所述的基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:所述訓練集、驗證集和測試集之間的圖片對數量的比例為7:2:1。
10.根據權利要求9所述的基于深度神經網絡的端到端的圖像多字符定位和匹配方法,其特征在于:所述深度神經網絡基于Keras深度學習框架進行搭建。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711025494.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型底托板加工設備
- 下一篇:一種輸電線路周邊環境中地面隱患的檢測方法





