[發明專利]抽取電子表格文檔中結構化信息的方法及裝置有效
| 申請號: | 201611245472.9 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106709032B | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 張軍;賈西貝 | 申請(專利權)人: | 深圳市華傲數據技術有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25 |
| 代理公司: | 11514 北京酷愛智慧知識產權代理有限公司 | 代理人: | 任媛 |
| 地址: | 518000 廣東省深圳市龍華新區清*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子表格文檔 業務表格 抽取 中結構 布局分析 數據處理技術 大規模數據 結構化信息 表格識別 算法獲取 轉換處理 孤立 | ||
本發明屬于數據處理技術領域,具體涉及一種抽取電子表格文檔中結構化信息的方法及裝置。本發明提供的抽取電子表格文檔中結構化信息的方法,包括:通過孤立表格識別算法獲取電子表格文檔中所有業務表格;對所述業務表格進行布局分析;根據布局分析結果從所述業務表格中抽取內容,并做對應的轉換處理得到結構化信息。本發明提供的抽取電子表格文檔中結構化信息的方法及裝置,實現了自動批量獲取電子表格文檔中所有業務表格的功能,提高了大規模數據抽取的效率。
技術領域
本發明涉及數據處理技術領域,具體涉及一種抽取電子表格文檔中結構化信息的方法及裝置。
背景技術
電子表格文檔,如Excel,雖然叫表格軟件,但是仍然是非結構化或者半結構化的數據。而且一個電子表格文檔中會有多個頁簽,每個頁簽中可能存在多個孤立的業務表格,而每個業務表格的布局可能非常隨意。所以表格中的數據沒有辦法直接使用,需抽取后進行一定處理后轉換成結構化數據。現有的數據抽取算法很難處理這么復雜、多變的情況。
發明內容
針對現有技術中的缺陷,本發明提供的抽取電子表格文檔中結構化信息的方法及裝置,實現了自動批量獲取電子表格文檔中所有業務表格的功能,提高了大規模數據抽取的效率。
第一方面,本發明提供的一種抽取電子表格文檔中結構化信息的方法,包括:通過孤立表格識別算法獲取電子表格文檔中所有業務表格;對所述業務表格進行布局分析;根據布局分析結果從所述業務表格中抽取內容,并做對應的轉換處理得到結構化信息。
本發明提供的抽取電子表格文檔中結構化信息的方法,通過孤立表格識別算法可以自動批量地獲取電子表格文檔中所有獨立的業務表格,提高了大規模數據抽取的效率;通過對業務表格進行布局分析后再抽取業務數據,提高了抽取數據的可靠性,尤其對大規模半結構化數據識別和抽取時更為有效。
優選地,所述通過孤立表格識別算法獲取電子表格文檔中所有業務表格,包括:建立與所述電子表格文檔的尺寸相同的兩個二維bit數組,記為A和B;遍歷所述電子表格文檔中的所有單元格,若單元格中有內容,則A中相應位置標記為1,否則標記為0;遍歷所述電子表格文檔中的所有單元格,根據單元格的邊框線對B進行標記;若B中的值為1,則A中相同位置的值設為1;根據更新后的A獲取所述電子表格文檔中的業務表格坐標。
優選地,所述遍歷所述電子表格文檔中的所有單元格,根據單元格的邊框線對B進行標記,包括:遍歷所述電子表格文檔中的所有單元格,若單元格的四個邊角至少有一個邊角存在兩條邊框線,則B中相應位置標記為1。
優選地,所述遍歷所述電子表格文檔中的所有單元格,若單元格的四個邊角至少有一個邊角存在兩條邊框線,則B中相應位置標記為1后,還包括:步驟S132,再次遍歷所述電子表格文檔中的所有單元格,若單元格存在邊框線,且B上對應值為0,且與所述單元格相鄰的上下左右四個單元格在B中的值至少有一個被標記為1,則將所述單元格在B中的位置標記為1;步驟S133,再次遍歷所述電子表格文檔中的所有單元格,若單元格在B上對應值為0,且在包含所述單元格的2×2的區域內,其它三個單元格在B上對應值都是1,則在B上標記所述單元格為1,并且計數器加1;步驟S134,若所述計數器不為0,則所述計數器清零,重新執行步驟S133。
優選地,所述根據更新后的A獲取所述電子表格文檔中的業務表格坐標,包括:對更新后的A進行縮小操作,得到LA;根據LA獲取所述電子表格文檔中的業務表格坐標業務表格坐標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市華傲數據技術有限公司,未經深圳市華傲數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611245472.9/2.html,轉載請聲明來源鉆瓜專利網。





