[發明專利]基于OCR的表格版式恢復方法、裝置及存儲介質在審
| 申請號: | 202010076368.1 | 申請日: | 2020-01-22 |
| 公開(公告)號: | CN111325110A | 公開(公告)日: | 2020-06-23 |
| 發明(設計)人: | 何嘉欣;劉鵬;劉玉宇;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 ocr 表格 版式 恢復 方法 裝置 存儲 介質 | ||
1.一種基于OCR的表格版式恢復方法,適用于電子裝置,其特征在于,該方法包括:
接收步驟:接收用戶發出的表格版式恢復指令,所述表格版式恢復指令包括待恢復表格圖片及所述待恢復表格圖片的圖片類型;
識別步驟:對所述待恢復表格圖片進行第一OCR識別得到第一識別結果,所述第一識別結果包括所述待恢復圖片的多個文本框及所述多個文本框對應的文本信息;
切割步驟:基于所述第一識別結果及預設切割規則確定所述待恢復表格圖片的切割線,并基于所述切割線確定目標表格結構;
第一恢復步驟:基于預設填充規則將所述多個文本框分別寫入所述目標表格結構中的單元格,生成第一表格;
第二恢復步驟:基于預設識別規則從所述第一表格中識別異常單元格,截取所述異常單元格對應的異常區域,將所述異常區域發送至預設終端,并接收所述預設終端返回的所述異常區域對應的異常單元格信息,基于所述異常單元格信息更新所述第一表格,得到目標表格;及
反饋步驟:將所述目標表格反饋至所述用戶。
2.根據權利要求1所述的基于OCR的表格版式恢復方法,其特征在于,所述基于所述第一識別結果及預設切割規則確定所述待恢復表格圖片的切割線,并基于所述切割線確定目標表格結構,包括:
基于所述第一識別結果及預設行切割規則對所述待恢復表格圖片進行行切割,確定所述待恢復表格圖片的行切割線;
根據所述圖片類型確定所述待恢復表格圖片對應的表頭信息,基于所述表頭信息及預設列切割規則對所述待恢復表格圖片進行列切割,確定所述待恢復表格圖片的列切割線;及
根據所述待恢復表格圖片的行切割線及列切割線確定所述目標表格結構。
3.根據權利要求2所述的基于OCR的表格版式恢復方法,其特征在于,所述基于所述第一識別結果及預設行切割規則對所述待恢復表格圖片進行行切割,確定所述待恢復表格圖片的行切割線,包括:
按照多個預設角度對所述第一識別結果中的所述多個文本框進行旋轉,對旋轉后的所述多個文本框在y軸上進行投影,確定在y軸上所述多個預設角度對應的多個投影區間及多個重疊投影片段;
選擇所述多個投影區間中投影區間最小,或者,選擇所述多個重疊投影片段中重疊投影片段最多的預設角度作為目標角度,確定所述目標角度對應的重疊投影片段;
根據所述目標角度對應的重疊投影片段確定在所述目標角度下所述多個文本框的行切割線;及
根據所述目標角度下所述多個文本框的行切割線,確定每一行對應的文本框。
4.根據權利要求2所述的基于OCR的表格版式恢復方法,其特征在于,所述根據所述圖片類型確定所述待恢復表格圖片對應的表頭信息,包括:
從預設存儲路徑獲取預先確定的圖片類型與表頭關鍵詞集合的映射數據,根據所述圖片類型及所述映射數據確定所述待恢復表格圖片對應的表頭關鍵詞集合;
根據所述行切割線確定所述待恢復表格圖片中每一行的文本框的文本信息,將所述每一行的文本框的文本信息與所述關鍵詞集合進行匹配;及
當存在與所述關鍵詞集合匹配的文本信息時,將與所述關鍵詞集合匹配的文本信息對應的一行文本框作為所述待恢復表格圖片的表頭信息。
5.根據權利要求2所述的基于OCR的表格版式恢復方法,其特征在于,所述基于所述表頭信息及預設列切割規則對所述待恢復表格圖片進行列切割,確定所述待恢復表格圖片的列切割線,包括:
獲取所述表頭信息中的每一個表頭元素,在所述每一個表頭元素對應的文本框的最右方作垂直切割線;及
將所述垂直切割線作為所述待恢復表格圖片的列切割線。
6.根據權利要求5所述的基于OCR的表格版式恢復方法,其特征在于,所述基于預設填充規則將所述多個文本框分別寫入所述目標表格結構中的單元格,包括:
確定所述目標表格結構中每個單元格對應的多個交集文本框,分別計算所述多個交集文本框面積及所述多個交集文本框與所述單元格的重疊面積;及
當所述重疊面積與所述交集文本框面積的比例超過預設比例閾值時,判斷所述交集文本框為所述單元格對應的目標文本框,將所述目標文本框的文本信息寫入所述單元格中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010076368.1/1.html,轉載請聲明來源鉆瓜專利網。





