[發明專利]一種基于圖像識別的pdf表格結構識別方法有效
| 申請號: | 201911369370.1 | 申請日: | 2019-12-26 |
| 公開(公告)號: | CN111144300B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 楊紅飛;金霞;韓瑞峰 | 申請(專利權)人: | 杭州費爾斯通科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 劉靜 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖像 識別 pdf 表格 結構 方法 | ||
1.一種基于圖像識別的pdf表格結構識別方法,其特征在于,該方法包括以下步驟:
(1)將pdf文檔的每一頁轉為圖像;
(2)對每一張輸入的圖像,識別出表格的位置,截取出表格區域;
(3)對表格區域識別文字blob塊;
(4)對每個blob找到鄰近的blob集合:對表格區域內的blob集合按照圖像y坐標進行排序,排列成多行的blob集合,每行的blob集合按照x坐標排序;排序后,對每行中的blob,找到同一行中下一個相鄰的blob、下一行中與其x軸上有重合的blob作為其鄰近集合;
(5)訓練blob關系分類模型,包括:
訓練數據:將標注數據中的每個blob與其鄰近集合中的每個blob建立blob對,得到每個blob對的兩種關系:是否同行、是否同列,作為ground truth;再計算每個blob對的特征;
訓練模型:建立兩個分類器,分別用于分類是否同行、是否同行;
模型預測:預測blob與鄰近集合中每個blob是否同行、同列;
(6)對blob之間的關系進行整理,得到表格的單元格結構:
分別計算表格的列集合和行集合;
表格的單元格:將表格行集合按照圖像的y坐標排序,列集合按照圖像的x坐標排序,再將每行每列進行交叉,得到表格的單元格;
整理單元格中的blob:將每個單元格中的blob按行排列,并將每一行的blob合并為一個大blob,并將大blob的橫坐標擴展到表格的單元格邊界,再對這一個大blob進行字符識別,得到該單元格的文字內容。
2.根據權利要求1所述的一種基于圖像識別的pdf表格結構識別方法,其特征在于,所述步驟(2)中,采用基于RCNN的神經網絡建立表格檢測器,識別出表格位置。
3.根據權利要求1所述的一種基于圖像識別的pdf表格結構識別方法,其特征在于,所述步驟(3)中,基于ctpn、craft、tesseract工具識別表格區域的文字blob塊。
4.根據權利要求1所述的一種基于圖像識別的pdf表格結構識別方法,其特征在于,所述步驟(5)的訓練數據整理過程中,每個blob對(blobi,blobj)的特征包括:blobi和blobj的圖像坐標、字符串長度、兩個blob之間的歐氏距離、x軸重合率、y軸重合率,將這些值的絕對值和相對值都作為特征。
5.根據權利要求1所述的一種基于圖像識別的pdf表格結構識別方法,其特征在于,所述步驟(5)的訓練模型過程中,選用svm、dnn、gnn、transformer模型建立分類器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州費爾斯通科技有限公司,未經杭州費爾斯通科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911369370.1/1.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





