[發明專利]基于深度學習的自然場景證件圖像文字識別方法有效
| 申請號: | 201910630252.5 | 申請日: | 2019-07-12 |
| 公開(公告)號: | CN110532855B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 王曉甜;吳嘉誠;林亞靜;石光明;齊飛;林杰 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V30/146;G06V30/148;G06V10/82;G06V30/10;G06N3/04;G06N3/08 |
| 代理公司: | 陜西電子工業專利中心 61205 | 代理人: | 田文英;王品華 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 自然 場景 證件 圖像 文字 識別 方法 | ||
1.一種基于深度學習的自然場景證件圖像文字識別方法,其特征在于,構建文字定位數據集和文字識別數據集,構建并訓練文字定位網絡和文字識別網絡,該方法的步驟包括如下:
(1)構建圖像特征提取模塊:
(1a)搭建一個24層特征提取模塊,其結構依次為:第一卷積層→第一池化層→第二卷積層→第三卷積層→第四卷積層→跳躍連接層→第五卷積層→第六卷積層→第七卷積層→跳躍連接層→第二池化層→第八卷積層→第九卷積層→第十卷積層→跳躍連接層→第十一卷積層→第十二卷積層→第十三卷積層→跳躍連接層→第三池化層→第十四卷積層→第十五卷積層→第十六卷積層→跳躍連接層;
(1b)將第四卷積層、第七卷積層、第十卷積層、第十三卷積層、第十六卷積層中卷積核的個數均設置為256,卷積核的大小均設置為3x3,卷積步長均設置為1,將其余的卷積層中卷積核的個數均設置為64,除了將第一卷積層的卷積核大小設置為7x7,卷積步長設置為2外,其余卷積層的卷積核的大小均設置為1x1,卷積步長均設置為1,第一至第三池化層均采用最大池化的方式,池化區域核的大小均設置為2x2,步長均設置為2;
(2)構建文字前景預測模塊:
(2a)搭建由三個卷積層組成的文本前景預測模塊,其結構依次為:第十七卷積層→第十八卷積層→第十九卷積層;所述第十八卷積和第十九卷積層并聯后與第十七卷積層串聯;
(2b)將第十七、第十八、第十九卷積層的卷積核的大小分別設置為3x3、1x1、1x1,卷積核的個數分別設置為256、18、36,步長均設置為1;
(3)構建文字區域定位模塊:
(3a)搭建文字區域定位模塊,其結構依次為:第四池化層→第一全連接層→第二全連接層→第三全連接層;所述第二全連接層與第三全連接層并聯后與第一全連接層串聯;
(3b)將第四池化層設置為全局平均池化方式,池化區域核的大小設置為7x7,步長設置為1,第一、第二、第三全連接層的神經元個數分別設置為4096、2、4;
(4)將圖像特征提取模塊、文字前景預測模塊、文字區域定位模塊依次連接組成文字定位網絡;
(5)構建字符特征提取模塊:
(5a)搭建一個11層的字符特征提取模塊,其結構依次為:第二十卷積層→第二十一卷積層→第五池化層→第二十二卷積層→第二十三卷積層→第六池化層→第二十四卷積層→第二十五卷積層→第七池化層→第二十六卷積層→第二十七卷積層;
(5b)將第二十至第二十七卷積層中卷積核的大小均設置為3x3,卷積步長均設置為1,其中將第二十、第二十一卷積層中卷積核的個數均設置為64,將第二十二、第二十三卷積層中卷積核的個數均設置為128,將第二十四、第二十七卷積層中卷積核的個數均設置為256,第一至第三池化層均采用最大池化的方式,池化區域核的大小均設置為2x2;
(6)組成文字識別網絡:
在字符特征提取模塊后面連接一個含有6250個神經元數的全連接層組成文字識別網絡;
(7)構建文字定位數據集:
(7a)隨機獲取至少3000張含有文字的網絡圖片和至少1000張證件圖片組成圖片數據集,將圖片數據集中所有的圖片的大小縮放為720x1080;
(7b)在每張圖片中標注文字區域頂點的坐標,將每張圖片標注后的所有文字區域頂點坐標值組成圖片標簽數據集;
(7c)將圖片數據集和圖片標簽數據集組成文字定位數據集;
(8)構建文字識別數據集:
(8a)隨機獲取至少三百萬張圖片,每張圖片含有一行文字10個字符,將所有的圖片組成文本數據集;將文本數據集中所有的圖片的大小縮放為32x280;
(8b)對每張圖片中的10個字符分別標注字符類別,將每張圖片標注后的字符類別對應的值,組成字符標簽數據集;
(8c)將文本數據集和字符標簽數據集組成文字識別數據集;
(9)訓練文字定位網絡:
(9a)將文字定位數據集按9:1的比例隨機分為文字定位訓練集和文字定位測試集;
(9b)將文字定位訓練集輸入到文字定位網絡中,用梯度下降法,更新文字定位網絡的權值10000至50000次,得到訓練好的文字定位網絡;
(10)訓練文字識別網絡:
(10a)將文字識別數據集按99:1的比例隨機分為文字識別訓練集和文字識別測試集;
(10b)將文字識別訓練集輸入到文字識別網絡中,用梯度下降法,更新文字識別網絡的權值100000至300000次,得到訓練好的文字識別網絡;
(11)識別證件圖像中的文字:
(11a)將文字定位測試集中的證件圖片依次輸入到訓練好的文字定位網絡中,輸出證件圖片中文字區域的頂點坐標值;
(11b)根據文本區域的頂點坐標值,將文本區域從證件圖像中切割出來;
(11c)將切割好的文本區域圖片輸入到訓練好的文字識別網絡中,輸出文本區域的每一個字符類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910630252.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生豬爬跨行為檢測方法及系統
- 下一篇:一種多算法融合的人臉識別方法





