[發明專利]一種基于圖像識別的pdf表格結構識別方法有效
| 申請號: | 201911369370.1 | 申請日: | 2019-12-26 |
| 公開(公告)號: | CN111144300B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 楊紅飛;金霞;韓瑞峰 | 申請(專利權)人: | 杭州費爾斯通科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖像 識別 pdf 表格 結構 方法 | ||
本發明公開了一種基于圖像識別的pdf表格結構識別方法,該方法將pdf文檔轉為圖像,對每一張輸入的圖像,識別出表格的位置,截取出表格區域,對表格區域識別文字blob塊,對每個blob找到鄰近的blob,對blob與每一個鄰近blob之間的關系進行預測,最后通過這些關系得到表格的結構。本發明去掉了圖像特征,并增加了與鄰接塊的邊的特征,用blob領域縮小了表格中文本塊的搜索范圍,大大加快了收斂速度和識別的準確率。對文字blob的檢測和后處理消除了字符遺漏的問題。
技術領域
本發明涉及圖像識別技術,尤其涉及一種基于圖像識別的pdf表格結構識別方法。
背景技術
在大數據和人工智能的應用場景下,要對大量的信息進行搜集、處理、分析,對數據進行結構化,發現數據中的規律來指導生產。信息的存在方式是多樣的、非結構化的,大量的信息存在于表格中,而表格可能存在于pdf、網頁、圖像中。針對pdf中的表格,目前存在的表格解析方法大致有通過讀取pdf的xml信息來解析表格(如xpdf工具)、將pdf轉為xml、html、word等其他格式再解析(如pdf-docx工具)、將pdf轉為圖像再進行結構識別,前兩種由于pdf文件本身的信息損失,都不能準確地進行解析,第三種方法主要依賴于圖像識別算法,目前現存的方法對復雜表格也不能夠準確識別。
發明內容
本發明的目的在于針對現有技術的不足,提供一種基于圖像識別的pdf表格結構識別方法,能夠得到表格的單元格排列信息,如第i行第j列的具體內容,以及復雜表格的跨列(colspan)、跨行(rowspan)信息。
本發明的目的是通過以下技術方案來實現的:一種基于圖像識別的pdf表格結構識別方法,該方法包括以下步驟:
(1)將pdf文檔的每一頁轉為圖像;
(2)對每一張輸入的圖像,識別出表格的位置,截取出表格區域;
(3)對表格區域識別文字blob塊;
(4)對每個blob找到鄰近的blob集合:對表格區域內的blob集合按照圖像y坐標進行排序,排列成多行的blob集合,每行的blob集合按照x坐標排序;排序后,對每行中的blob,找到同一行中下一個相鄰的blob、下一行中與其x軸上有重合的blob作為其鄰近集合;
(5)訓練blob關系分類模型,包括:
訓練數據:將標注數據中的每個blob與其鄰近集合中的每個blob建立blob對,得到每個blob對的兩種關系:是否同行、是否同列,作為ground truth;再計算每個blob對的特征;
訓練模型:建立兩個分類器,分別用于分類是否同行、是否同行;
模型預測:預測blob與鄰近集合中每個blob是否同行、同列;
(6)對blob之間的關系進行整理,得到表格的單元格結構:
分別計算表格的列集合和行集合;
表格的單元格:將表格行集合按照圖像的y坐標排序,列集合按照圖像的x坐標排序,再將每行每列進行交叉,得到表格的單元格;
整理單元格中的blob:將每個單元格中的blob按行排列,并將每一行的blob合并為一個大blob,并將大blob的橫坐標擴展到表格的單元格邊界,再對這一個大blob進行字符識別,得到該單元格的文字內容。
進一步地,步驟(2)中采用基于RCNN的神經網絡建立表格檢測器,識別出表格位置。
進一步地,步驟(3)中基于ctpn、craft、tesseract等工具識別表格區域的文字blob塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州費爾斯通科技有限公司,未經杭州費爾斯通科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911369370.1/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





