[發明專利]抽取電子表格文檔中結構化信息的方法及裝置有效
| 申請號: | 201611245472.9 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106709032B | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 張軍;賈西貝 | 申請(專利權)人: | 深圳市華傲數據技術有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25 |
| 代理公司: | 11514 北京酷愛智慧知識產權代理有限公司 | 代理人: | 任媛 |
| 地址: | 518000 廣東省深圳市龍華新區清*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子表格文檔 業務表格 抽取 中結構 布局分析 數據處理技術 大規模數據 結構化信息 表格識別 算法獲取 轉換處理 孤立 | ||
1.一種抽取電子表格文檔中結構化信息的方法,其特征在于,包括:
通過孤立表格識別算法獲取電子表格文檔中所有業務表格;
對所述業務表格進行布局分析;
根據布局分析結果從所述業務表格中抽取內容,并做對應的轉換處理得到結構化信息;所述通過孤立表格識別算法獲取電子表格文檔中所有業務表格,包括:
建立與所述電子表格文檔的尺寸相同的兩個二維bit數組,記為A和B;
遍歷所述電子表格文檔中的所有單元格,若單元格中有內容,則A中相應位置標記為1,否則標記為0;
遍歷所述電子表格文檔中的所有單元格,根據單元格的邊框線對B進行標記;
若B中的值為1,則A中相同位置的值設為1;
根據更新后的A獲取所述電子表格文檔中的業務表格坐標。
2.根據權利要求1所述的方法,其特征在于,所述遍歷所述電子表格文檔中的所有單元格,根據單元格的邊框線對B進行標記,包括:
遍歷所述電子表格文檔中的所有單元格,若單元格的四個邊角至少有一個邊角存在兩條邊框線,則B中相應位置標記為1。
3.根據權利要求2所述的方法,其特征在于,所述遍歷所述電子表格文檔中的所有單元格,若單元格的四個邊角至少有一個邊角存在兩條邊框線,則B中相應位置標記為1后,還包括:
步驟S132,再次遍歷所述電子表格文檔中的所有單元格,若單元格存在邊框線,且B上對應值為0,且與所述單元格相鄰的上下左右四個單元格在B中的值至少有一個被標記為1,則將所述單元格在B中的位置標記為1;
步驟S133,再次遍歷所述電子表格文檔中的所有單元格,若單元格在B上對應值為0,且在包含所述單元格的2×2的區域內,其它三個單元格在B上對應值都是1,則在B上標記所述單元格為1,并且計數器加1;
步驟S134,若所述計數器不為0,則所述計數器清零,重新執行步驟S133。
4.根據權利要求2所述的方法,其特征在于,所述根據更新后的A獲取所述電子表格文檔中的業務表格坐標,包括:
對更新后的A進行縮小操作,得到LA;
根據LA獲取所述電子表格文檔中的業務表格坐標。
5.根據權利要求4所述的方法,其特征在于,所述對更新后的A進行縮小操作,得到LA,包括:
從A的最左側開始遍歷A中所有的列,若列中存在1的值,則記錄列的列坐標X1,終止遍歷;
從A的最右側開始遍歷A中所有的列,若列中存在1的值,則記錄列的列坐標X2,終止遍歷;
從A的最上側開始遍歷A中所有的行,若行中存在1的值,則記錄行的行坐標Y1,終止遍歷;
從A的最下側開始遍歷A中所有的行,若行中存在1的值,則記錄行的行坐標Y2,終止遍歷;
提取出A中[X1,X2,Y1,Y2]位置的數據,形成二維bit數組LA,并根據X1、X2、Y1、Y2確定LA和A的坐標映射關系。
6.根據權利要求5所述的方法,其特征在于,所述根據LA獲取所述電子表格文檔中的業務表格坐標,包括:
若LA中所有值都為1,則所述電子表格文檔中只有一個表格,業務表格坐標為[X1,X2,Y1,Y2];
否則,檢測所述電子表格文檔中第X1列、第Y1行的單元格是否為空,若單元格不為空,則一直向右檢測其余單元格,直到檢測到空單元格,記錄空單元格的列坐標為X3,
從上向下檢測第X1列的單元格是否為空,直到檢測到空單元格,記錄空單元格的行坐標為第X1列的最大行坐標,繼續檢測下一列,直到檢測完第X3列,
若所有最大行坐標中最大值為Y3,則業務表格坐標為[X1,X3,Y1,Y3],將LA中與[X1,X3,Y1,Y3]相對應位置的內容設為0,得到新的LA;
根據更新后的LA獲取所述電子表格文檔中的業務表格坐標,直到提取出所述電子表格文檔中所有業務表格。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市華傲數據技術有限公司,未經深圳市華傲數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611245472.9/1.html,轉載請聲明來源鉆瓜專利網。





