[發明專利]PDF文檔表格提取方法、裝置、設備及計算機可讀存儲介質有效
| 申請號: | 201910560432.0 | 申請日: | 2019-06-26 |
| 公開(公告)號: | CN110390269B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 劉克亮;盧波 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06V30/146;G06V30/19 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 高茹 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | pdf 文檔 表格 提取 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本申請涉及人工智能技術領域,公開一種PDF文檔表格提取方法、裝置、設備及計算機可讀存儲介質,方法包括:獲取待識別的PDF文檔,并對待識別的PDF文檔進行處理;將處理后的PDF文檔進行預處理后輸入至卷積神經網絡中,輸出特征圖,并將特征圖輸入至RPN區域候選網絡中,確定表格區域;基于OCR文字識別技術對表格區域進行預處理以及特征提取,得到特征圖片,并對特征圖片進行文字檢測,確定文本區域,對文本區域進行文字識別,確定文本信息,文本信息包括文本位置信息和文本內容信息;根據文本坐標信息確定表格的結構信息,基于結構信息劃分表格的各單元格,并將文本內容信息對應的文本填入表格的各對應單元格中。通過本申請,提高PDF文檔表格提取的準確性。
技術領域
本申請涉及圖像處理技術領域,尤其涉及PDF文檔表格提取方法、裝置、設備及計算機可讀存儲介質。
背景技術
現有的針對PDF文件中表格提取的方法,基本上都是針對可提取文本的PDF,通過獲取PDF的結構信息,提取出表格區域。而針對圖片型的PDF文件,則只能通過傳統的圖像處理方法進行表格提取。首先提取表格框,然后根據表格框提取框內區域,最后對框內區域圖像進行OCR識別,從而提取出表格內容。但是,這種方法只能對有表格線的表格有效,如果表格線不全,則可能出現定位的表格區域不全或者是單元格內容不全的問題,從而導致表格提取的準確率不高。
發明內容
本申請的主要目的在于提供一種PDF文檔表格提取方法、裝置、設備及計算機可讀存儲介質,旨在解決現有的PDF文檔表格提取方法應用范圍小且準確度不高的技術問題。
為實現上述目的,本申請提供一種PDF文檔表格提取方法,所述PDF文檔表格提取方法包括以下步驟:
獲取待識別的PDF文檔,并對所述待識別的PDF文檔進行處理,其中,所述待識別的PDF文檔包括可提取文字內容的PDF文檔和圖片類的PDF文檔,對所述PDF文檔進行處理包括將所述可提取文字內容的PDF文檔轉換為圖片類的PDF文檔;
將所述處理后的PDF文檔進行預處理后輸入至預設的卷積神經網絡中,基于所述預設的卷積神經網絡輸出所述處理后的PDF文檔的特征圖,并將所述特征圖輸入至RPN區域候選網絡中,確定處理后的PDF文檔中的表格區域;
基于OCR文字識別技術對所述表格區域進行預處理以及特征提取,得到所述表格區域的特征圖片,并對所述特征圖片進行文字檢測,確定所述表格區域內的文本區域,對所述文本區域進行文字識別,確定所述表格區域內的文本信息,其中,所述文本信息包括文本位置信息和文本內容信息,所述文本位置信息用坐標進行表示;
根據所述文本坐標信息確定所述表格的結構信息,基于所述結構信息劃分表格的各單元格,并將所述文本內容信息對應的文本填入所述表格的各對應單元格中。
可選地,所述將所述處理后的PDF文檔進行預處理后輸入至預設的卷積神經網絡中,基于所述預設的卷積神經網絡輸出所述處理后的PDF文檔的特征圖,并將所述特征圖輸入至RPN區域候選網絡中,確定處理后的PDF文檔中的表格區域之前,還包括:
獲取待訓練的PDF文檔樣本,并對所述待訓練的PDF文檔樣本進行轉換,得到樣本圖片;
獲取所述待訓練的PDF文檔樣本對應的標注信息,并基于所述標注信息對所述樣本圖片中的表格位置進行標注;
基于標注的樣本圖片對預設初始模型進行訓練,得到表格識別模型;
保存所述表格識別模型。
可選地,所述基于標注的樣本圖片對預設初始模型進行訓練,得到表格識別模型包括:
對標注的樣本圖片進行預處理,其中,所述預處理的過程包括去均值、歸一化及白化處理;
將所述預處理后的樣本圖片輸入至預設的卷積神經網絡中,得到所述標注的樣本圖片的特征圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910560432.0/2.html,轉載請聲明來源鉆瓜專利網。





