[發明專利]基于領域知識模版的表格結構化提取方法在審

申請號：	201810289621.4	申請日：	2018-04-03
公開（公告）號：	CN110347982A	公開（公告）日：	2019-10-18
發明（設計）人：	王博遠;陳前力;淡強強;吳雪軍	申請（專利權）人：	鼎復數據科技（北京）有限公司
主分類號：	G06F17/24	分類號：	G06F17/24;G06F17/27
代理公司：	北京康思博達知識產權代理事務所(普通合伙) 11426	代理人：	范國鋒;劉冬梅
地址：	100020 北京***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	領域知識目標表格模版表格結構可視化編輯表格信息表格形式表述形式快速識別實時調整依次讀取抽取關聯期望
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于領域知識模版的表格結構化提取方法，其特征在于，該方法包括：

步驟1，編輯領域知識模板，在所述領域知識模版中設置有目標表格；

步驟2，識別文檔中各個待處理表格的種類，并分別調取用于處理各個待處理表格的領域知識模板；

步驟3，調整/轉換待處理表格的結構，使之與目標表格的結構相匹配；

步驟4，根據目標表格歸一化待處理表格中的數據。

2.根據權利要求1所述的基于領域知識模版的表格結構化提取方法，其特征在于，

步驟1中，編輯多個領域知識模板，所述多個領域知識模板分別用于處理多種類型的數據表格；

在各個領域知識模板中都分別記載有識別標志信息，用以在多種待處理表格中定位到該模版所針對/處理的特定待處理表格。

3.根據權利要求1所述的基于領域知識模版的表格結構化提取方法，其特征在于，

在所述步驟1的領域知識模板中，所述目標表格的結構可編輯，

目標表格中包括表頭、指標項和數據項；

優選地，所述指標項和數據項都具有層次結構。

4.根據權利要求1所述的基于領域知識模版的表格結構化提取方法，其特征在于，

領域知識模板中還存儲有可編輯的詞典，該詞典中記載有目標表格中各個表頭的同義詞和指標項的同義詞。

5.根據權利要求2所述的基于領域知識模版的表格結構化提取方法，其特征在于，

所述領域知識模板中的識別標志信息包括關鍵字/關鍵詞；

步驟2中，識別文檔中各個待處理表格的種類，包括：讀取待處理表格的目錄、標題、附注，從中找到代表該表格內容的關鍵字/關鍵詞，

通過待處理表格的關鍵字/關鍵詞與領域知識模板中識別標志信息之間的匹配程度，選擇用于處理待處理表格的領域知識模板。

6.根據權利要求1所述的基于領域知識模版的表格結構化提取方法，其特征在于，

在步驟2中，將由多個子表格合并而成的復合表格切分為多個子表格。

7.根據權利要求1所述的基于領域知識模版的表格結構化提取方法，其特征在于，

在步驟3中，調整/轉換待處理表格的結構，包括

子步驟1，對待處理表格中合并單元格、結構性單元格和內嵌表格做拉平、轉換或展開處理，進而將待處理表格調整為標準的n*m結構；

子步驟2，調整待處理表格中各個列的前后順序，使得待處理表格中各個列的前后順序與目標表格中各個列的前后順序一致；

子步驟3，調整待處理表格中各個行的上下順序，使得待處理表格中各個行的上下順序與目標表格中各個行的上下順序一致。

8.根據權利要求7所述的基于領域知識模版的表格結構化提取方法，其特征在于，

子步驟2中，通過比較表頭和指標項內容，來判斷待處理表格中的列和目標表格中的列是否一致。

9.根據權利要求7所述的基于領域知識模版的表格結構化提取方法，其特征在于，

子步驟3中，通過比較指標項及其同義詞，來判斷待處理表格中的行和目標表格中的行是否一致。

10.根據權利要求4所述的基于領域知識模版的表格結構化提取方法，其特征在于，

在步驟4中，根據目標表格歸一化待處理表格中的數據，包括，

子步驟a，根據目標表格和詞典，將待處理表格中指標項名稱改寫為標準名稱，

子步驟b，將待處理表格中的數值改為標準格式，并調整為統一標準單位。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于鼎復數據科技（北京）有限公司，未經鼎復數據科技（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810289621.4/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：數據對象展示信息的生成方法、裝置、設備及存儲介質
下一篇：訓練樣本保存方法、裝置、電子設備及存儲介質

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】