[發明專利]一種基于深度學習的級聯式文本關鍵字段檢測方法有效
| 申請號: | 202110334566.8 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN112949574B | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 汪增福;吳仕蓮 | 申請(專利權)人: | 中國科學院合肥物質科學研究院 |
| 主分類號: | G06V30/416 | 分類號: | G06V30/416;G06V30/18;G06V30/19;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230031 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 級聯 文本 關鍵 字段 檢測 方法 | ||
本發明公開了一種基于深度學習的級聯式文本關鍵字段檢測方法,其步驟包括:首先收集文檔圖片并進行人工標注,建立關鍵字段檢測數據集;接著構建基于深度學習的級聯式文本關鍵字段檢測模型;然后運行基于深度學習的級聯式文本關鍵字段檢測模型,得到檢測結果;最后根據檢測結果對文本關鍵字段進行后處理,得到矯正后的關鍵字段。本發明無需復雜的后處理,能夠直接針對圖像輸出關鍵字段所在位置,便于后續的關鍵字段識別。
技術領域
本發明涉及涉及文檔分析領域的相關問題,具體涉及一種基于深度學習的級聯式文本關鍵字段檢測方法。
背景技術
文檔分析中,一個關鍵的技術就是結構化:即很多時候并不需要對文檔中的每一個文字都進行檢測識別,而只需要識別那些客戶所需要的字段信息。如在保險單識別中,客戶只需要保險單號、姓名、價格與保險時間這些字段的識別結果,其他的保險條款等內容是無用信息。在行駛證識別中,只需要識別車牌號碼、姓名與注冊日期等字段。
目前的一般方法都是根據關鍵字段的位置來設計一系列規則,之后利用這些規則去檢測關鍵字段。但這種方法魯棒性很差,只要測試的圖片稍有變化,就需要重新設計參數來檢測關鍵字段,并且精度低,檢測的字段位置不精確。
發明內容
本發明克服了現有技術的不足之處,提供一種基于深度學習的級聯式文本關鍵字段檢測方法,以期通過深度學習方法來提取豐富的上下文特征,從而提升關鍵字段檢測的準確率與魯棒性。
本發明為達到上述發明目的,采用如下技術方案:
本發明一種基于深度學習的級聯式文本關鍵字段檢測方法的特點在于,包括以下步驟:
步驟1:收集文檔圖片并進行人工標注,建立用于關鍵字段檢測的圖片數據集;
步驟2:構建基于深度學習的級聯式文本關鍵字段檢測模型,包括:基于熱力圖回歸的關鍵字段檢測模型HeatNet、基于角點檢測的字段矯正模型RectifyNet;
所述基于熱力圖回歸的關鍵字段檢測模型HeatNet,包含:4組StemBlock層、一組檢測模塊與4個最大池化層;每組StemBlock層由M個深度可分離卷積、1個1×1卷積組成;所述檢測模塊由4層卷積組成;
所述基于角點檢測的字段矯正模型RectifyNet由1個可變形卷積組成;
步驟3:運行基于深度學習的級聯式文本關鍵字段檢測模型;
步驟3.1:將所述圖片數據集中的一張文檔圖片X送入所述關鍵字段檢測模型HeatNet的4組StemBlock層中,每經過1組StemBlock層的M個深度可分離卷積以及一個1×1卷積處理后,再經過一個最大池化層的下采樣處理,從而在經過4個SteamBlock層以及4個最大池化層處理后,得到尺寸為的特征圖F,其中,H和W是文檔圖片X的高與寬;
其中,利用式(1)得到第一個StemBlock層的輸出Out1:
Out1=MaxPool(Conv1(DWConvM1(X))) (1)
式(1)中,DWConvM1(·)表示第一個StemBlock層的M個深度可分離卷積操作,其卷積核的輸出通道數為C1;Conv1(·)表示卷積核為1×1的第一卷積操作,其卷積核的輸出通道數為C1;MaxPool(·)表示步長為2的最大池化層;
利用式(2)得到第二個StemBlock層的輸出Out2:
Out2=MaxPool(Conv2(DWConvM2(Out1))) (2)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院合肥物質科學研究院,未經中國科學院合肥物質科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110334566.8/2.html,轉載請聲明來源鉆瓜專利網。





