[發明專利]基于領域知識模版的表格結構化提取方法在審
| 申請號: | 201810289621.4 | 申請日: | 2018-04-03 |
| 公開(公告)號: | CN110347982A | 公開(公告)日: | 2019-10-18 |
| 發明(設計)人: | 王博遠;陳前力;淡強強;吳雪軍 | 申請(專利權)人: | 鼎復數據科技(北京)有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F17/27 |
| 代理公司: | 北京康思博達知識產權代理事務所(普通合伙) 11426 | 代理人: | 范國鋒;劉冬梅 |
| 地址: | 100020 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 領域知識 目標表格 模版 表格結構 可視化編輯 表格信息 表格形式 表述形式 快速識別 實時調整 依次讀取 抽取 關聯 期望 | ||
本發明公開了一種基于領域知識模版的表格結構化提取方法,該方法中通過編輯多個領域知識模板,分別用以處理不同類型的待處理表格,在所述領域知識模版中設置有目標表格,即期望抽取處理得到的表格形式;該方法中依次讀取待處理表格信息,具體確定處理每個表格所用的領域知識模板;在領域知識模板中還記載有與目標表格相關聯的詞典,以使得能夠快速識別出待處理表格不同表述形式的內容,使之與目標表格相對應;特別地,該領域知識模板是可以可視化編輯,操作者能夠實時調整其中的目標表格結構和詞典,逐步完善領域知識模板,逐步提高該方法的適應性和準確性。
技術領域
本發明涉及表格結構化提取方法,具體涉及一種基于領域知識模版的表格結構化提取方法。
背景技術
在現代金融領域數據分析中,表格類型數據處理是一個頻繁且繁重的工作。表格數據可以來源自Web網頁、PDF、Doc、Excel等文件,涵蓋了公司財務數據、行業數據、宏觀數據等多個大領域及其下更多小領域的非結構化信息。表格通常以二維表的形式在其承載媒介中體現,在得到原始結構表格以后,數據分析者通常需要將其轉換為標準結構化數據,用以支持規范存儲、查詢、計算、各個維度數據對比等進一步工作。
在這個過程中有3個主要問題導致數據分析者需要花費很大精力進行數據整理:1、表格二維結構不規范,經常會存在單元格跨行、跨列合并和多表合并等情況;2、表格結構的多樣性,同一種數據在不同表格中有不同的表現形式,具體可以體現為在結構、順序、字段等方面存在差異;3、表格中的數據不能完全滿足結構化需求,其他存在于標題目錄、上下文、單位說明等內容中的信息也需要進行抽取整合。這些問題給數據分析者帶來了很大的困難,導致表格數據結構化成為一個迫切需要研究并給出高效解決方案的熱點問題。
目前業內的表格數據結構化方法并不常見,基本上都是針對特定領域甚至特定一類數據的定向抽取工具,不同類型數據抽取方案存在很大不同,通用性和可擴展能力較差。在抽取效率方面,特定數據的抽取方法一般運行速度較快,但是對每個數據形式定制抽取方案的時間和人力成本都比較高,不能滿足多領域、多類型研究的大規模數據抽取需求;
由于上述原因,本發明人對現有的表格數據結構化方法做了深入研究,設計出一種能夠解決上述問題的基于領域知識模版的表格結構化提取方法。
發明內容
為了克服上述問題,本發明人進行了銳意研究,設計出一種基于領域知識模版的表格結構化提取方法,該方法中通過編輯多個領域知識模板,分別用以處理不同類型的待處理表格,在所述領域知識模版中設置有目標表格,即期望抽取處理得到的表格形式;該方法中依次讀取待處理表格信息,具體確定處理每個表格所用的領域知識模板;在領域知識模板中還記載有與目標表格相關聯的詞典,以使得能夠快速識別出待處理表格不同表述形式的內容,使之與目標表格相對應;特別地,該領域知識模板是可以可視化編輯,操作者能夠實時調整其中的目標表格結構和詞典,逐步完善領域知識模板,逐步提高該方法的適應性和準確性,從而完成本發明。
具體來說,本發明的目的在于提供基于領域知識模版的表格結構化提取方法,該方法包括:
步驟1,編輯領域知識模板,在所述領域知識模版中設置有目標表格;
步驟2,識別文檔中各個待處理表格的種類,并分別調取用于處理各個待處理表格的領域知識模板;
步驟3,調整/轉換待處理表格的結構,使之與目標表格的結構相匹配;
步驟4,根據目標表格歸一化待處理表格中的數據。
其中,步驟1中,編輯多個領域知識模板,所述多個領域知識模板分別用于處理多種類型的數據表格;
在各個領域知識模板中都分別記載有識別標志信息,用以在多種待處理表格中定位到該模版所針對/處理的特定待處理表格。
其中,在所述步驟1的領域知識模板中,所述目標表格的結構可編輯,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎復數據科技(北京)有限公司,未經鼎復數據科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810289621.4/2.html,轉載請聲明來源鉆瓜專利網。





