[發(fā)明專利]表格數(shù)據(jù)提取方法、裝置、計算機設備和存儲介質在審

申請?zhí)枺?/td>	202011269426.9	申請日：	2020-11-13
公開（公告）號：	CN112257400A	公開（公告）日：	2021-01-22
發(fā)明（設計）人：	朱龍軍	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G06F40/18	分類號：	G06F40/18;G06F16/28
代理公司：	廣州華進聯(lián)合專利商標代理有限公司 44224	代理人：	黃晶晶
地址：	518000 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	表格數(shù)據(jù) 提取方法裝置計算機設備存儲介質
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及一種基于人工智能中自然語言處理技術的表格數(shù)據(jù)提取方法、裝置、計算機設備和存儲介質。所述方法包括：獲取第一方向邊框缺失表格；獲取所述第一方向邊框缺失表格中的關鍵字；通過預設語言模型，識別不同表格單元中所述關鍵字的主從關系，所述預設語言模型用于識別關鍵字屬于同一語句的概率；根據(jù)所述主從關系補充所述第一方向邊框缺失表格中的第一方向邊框；識別并提取所述補充后的表格內(nèi)的表格數(shù)據(jù)。本申請中，通過預設語言模型，來識別第一方向邊框缺失表格中關鍵字的主從關系，而后基于確定的主從關系來補充第一方向邊框，進而進行表格數(shù)據(jù)的提取，具備更高的數(shù)據(jù)提取準確率。

技術領域

本申請涉及計算機技術領域，特別是涉及一種表格數(shù)據(jù)提取方法、裝置、計算機設備和存儲介質。

背景技術

PDF(Portable Document Format)即便攜式文檔格式，由AdobeSystems用于進行文件交換所開發(fā)出的文件格式，其與應用程序、操作系統(tǒng)及其他硬件均無交互關系。PDF文檔以PostScript語言圖像模型為基礎，保證PDF文檔在任何一臺打印機上都可具有精確的顏色和準確的打印效果，即PDF會如實地再現(xiàn)PDF文檔中的每一個字符、顏色以及圖像等內(nèi)容。隨著計算機及互聯(lián)網(wǎng)技術的快速發(fā)展，PDF文檔越來越廣泛地用在經(jīng)濟、金融、教育、科研及學術等各種領域。由于PDF設計目的只是為了展示文檔或用于打印文檔，而沒有與其他計算機程序進行通訊與交互的功能。因此，PDF文檔中所包含的大量數(shù)據(jù)，特別其中包含的表格數(shù)據(jù)，難以被其他計算機程序直接使用。

目前對于PDF文檔內(nèi)部的表格數(shù)據(jù)，可以通過PDF表格抽取的方式來進行信息提取，PDF表格抽取即將PDF文檔中的表格數(shù)據(jù)，抽取為結構化信息。然而在PDF表格內(nèi)存在邊框缺失時，則不能組成表格，從而無法抽取完整的表格數(shù)據(jù)。

此時，為了提取PDF表格內(nèi)的完整數(shù)據(jù)，會采用文本位置聚類法來進行，此時會完全丟棄邊框信息，轉而使用文字本身的位置信息，如一般表格中同一列的文本會左對齊、右對齊或居中對齊，根據(jù)這些對齊信息通過某些算法猜測某些文字可能屬于某一列，從而抽取表格信息。然而這種方法類似于將信息提取問題轉化為無邊框表格抽取，表格數(shù)據(jù)的提取準確率較低。

發(fā)明內(nèi)容

基于此，有必要針對上述技術問題，提供一種能夠提高邊框缺失環(huán)境下的PDF表格數(shù)據(jù)提取準確率的表格數(shù)據(jù)提取方法、裝置、計算機設備和存儲介質。

一種表格數(shù)據(jù)提取方法，所述方法包括：

獲取第一方向邊框缺失表格；

獲取所述第一方向邊框缺失表格中的關鍵字；

通過預設語言模型，識別不同表格單元中所述關鍵字的主從關系，所述預設語言模型用于識別關鍵字屬于同一語句的概率，所述不同表格單元為表格中沿第二方向的表格單元，所述第一方向為表格列方向，所述第二方向為表格行方向，或所述第一方向為表格行方向，所述第二方向為表格列方向；

根據(jù)所述主從關系補充所述第一方向邊框缺失表格中的第一方向邊框；

識別并提取所述補充后的表格內(nèi)的表格數(shù)據(jù)。

一種表格數(shù)據(jù)提取裝置，所述裝置包括：

表格獲取模塊，用于獲取第一方向邊框缺失表格；

關鍵字獲取模塊，用于獲取所述第一方向邊框缺失表格中的關鍵字；

主從關系識別模塊，用于通過預設語言模型，識別不同表格單元中所述關鍵字的主從關系，所述預設語言模型用于識別關鍵字屬于同一語句的概率；