[發明專利]表格提取方法與表格提取系統在審
| 申請號: | 202210364491.2 | 申請日: | 2022-04-07 |
| 公開(公告)號: | CN114663897A | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 路浩南 | 申請(專利權)人: | 貝殼找房網(北京)信息技術有限公司 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06V20/62;G06V10/26;G06V30/148;G06V30/10 |
| 代理公司: | 北京潤平知識產權代理有限公司 11283 | 代理人: | 王曉曉 |
| 地址: | 101520 北京市密云區經濟開發區興盛南路*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 提取 方法 系統 | ||
1.一種表格提取方法,其特征在于,所述表格提取方法包括:
通過圖像分割模型對表格圖像進行分割,以獲得標記有各個像素點處的線屬性的掩膜圖像;
采用圖像學方法對所述掩膜圖像進行處理,以獲取每個單元格的頂點坐標及所述每個單元格的起始行索引、起始列索引、終止行索引與終止列索引;
通過文本識別模型對所述表格圖像進行識別,以獲得所述表格圖像中的每個文本的最小外接矩形的頂點坐標與文本內容;
根據所述每個單元格的頂點坐標與所述每個文本的最小外接矩形的頂點坐標,確定所述每個單元格內的文本內容;以及
根據所述每個單元格的起始行索引、起始列索引、終止行索引與終止列索引及所述每個單元格內的文本內容,生成以目標文件呈現的表格。
2.根據權利要求1所述的表格提取方法,其特征在于,所述采用圖像學方法對所述掩膜圖像進行處理包括:
對所述掩膜圖像進行連通域標記,得到各個連通域;
根據所述各個連通域中的像素點的坐標,獲取與所述各個連通域相匹配的最小外接矩形框中的四個線段的頭坐標與尾坐標;
根據與所述各個連通域相匹配的最小外接矩形框中的四個線段的頭坐標與尾坐標,建立單元格矩陣;以及
對所述單元格矩陣進行連通域標記,以獲取所述每個單元格的頂點坐標。
3.根據權利要求2所述的表格提取方法,其特征在于,所述獲取與所述各個連通域相匹配的最小外接矩形框中的四個線段的頭坐標與尾坐標包括:
根據所述各個連通域中的像素點的坐標,獲取與所述各個連通域相匹配的最小外接矩形框的頂點坐標;以及
根據與所述各個連通域相匹配的最小外接矩形框的頂點坐標及所述最小外接矩形框中的每個線段的方向,確定所述每個線段的頭坐標與尾坐標。
4.根據權利要求3所述的表格提取方法,其特征在于,所述確定所述每個線段的頭坐標與尾坐標包括:
針對所述最小外接矩形框中的橫向線段,將所述最小外接矩形框的橫坐標的最小值確定為頭橫坐標,將所述最小外接矩形框的左上角頂點的縱坐標與左下角頂點的縱坐標的均值確定為頭縱坐標,將所述最小外接矩形框的橫坐標的最大值確定為尾橫坐標,并將所述最小外接矩形框的右上角頂點的縱坐標與右下角頂點的縱坐標的均值為尾縱坐標;以及
針對所述最小外接矩形框中的縱向線段,將所述最小外接矩形框的縱坐標的最小值確定為頭縱坐標,將所述最小外接矩形框的左上角頂點的橫坐標與右上角頂點的橫坐標的均值確定為頭橫坐標,將所述最小外接矩形框的縱坐標的最大值確定為尾縱坐標,并將所述最小外接矩形框的左下角頂點的橫坐標與右下角頂點的橫坐標的均值確定為尾橫坐標。
5.根據權利要求4所述的表格提取方法,其特征在于,所述采用圖像學方法對所述掩膜圖像進行處理還包括:
根據所述各個連通域相匹配的最小外接矩形框中的橫向線段的頭縱坐標或尾縱坐標,對所述橫向線段進行升序排序,以形成第一集合;
根據所述各個連通域相匹配的最小外接矩形框中的縱向線段的頭橫坐標或尾橫坐標,對所述縱向線段進行升序排序,以形成第二集合;
將所述第一集合中的距所述每個單元格的左上角頂點的坐標最近的線段確定為所述每個單元格的起始行索引,并將所述第一集合中的距所述每個單元格的右下角頂點的坐標最近的線段確定為所述每個單元格的終止行索引;以及
將所述第二集合中的距所述每個單元格的左上角頂點的坐標最近的線段確定為所述每個單元格的起始列索引,并將所述第二集合中的距所述每個單元格的右下角頂點的坐標最近的線段確定為所述每個單元格的終止列索引。
6.根據權利要求1所述的表格提取方法,其特征在于,所述確定所述每個單元格內的文本內容包括:
遍歷所述每個單元格,并在特定文本的最小外接矩形與特定單元格的交集面積大于臨界閾值的情況下,確定所述特定文本的最小外接矩形的文本內容為所述特定單元格內的文本內容。
7.根據權利要求1所述的表格提取方法,其特征在于,所述臨界閾值為所述特定文本的最小外接矩形的面積與所述特定單元格的面積兩者中的最小值與預設值的乘積。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貝殼找房網(北京)信息技術有限公司,未經貝殼找房網(北京)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210364491.2/1.html,轉載請聲明來源鉆瓜專利網。





