[發(fā)明專利]表格數(shù)據(jù)提取方法、裝置、計算機設備和存儲介質在審
| 申請?zhí)枺?/td> | 202011269426.9 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112257400A | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設計)人: | 朱龍軍 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/18 | 分類號: | G06F40/18;G06F16/28 |
| 代理公司: | 廣州華進聯(lián)合專利商標代理有限公司 44224 | 代理人: | 黃晶晶 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 數(shù)據(jù) 提取 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種基于人工智能中自然語言處理技術的表格數(shù)據(jù)提取方法、裝置、計算機設備和存儲介質。所述方法包括:獲取第一方向邊框缺失表格;獲取所述第一方向邊框缺失表格中的關鍵字;通過預設語言模型,識別不同表格單元中所述關鍵字的主從關系,所述預設語言模型用于識別關鍵字屬于同一語句的概率;根據(jù)所述主從關系補充所述第一方向邊框缺失表格中的第一方向邊框;識別并提取所述補充后的表格內(nèi)的表格數(shù)據(jù)。本申請中,通過預設語言模型,來識別第一方向邊框缺失表格中關鍵字的主從關系,而后基于確定的主從關系來補充第一方向邊框,進而進行表格數(shù)據(jù)的提取,具備更高的數(shù)據(jù)提取準確率。
技術領域
本申請涉及計算機技術領域,特別是涉及一種表格數(shù)據(jù)提取方法、裝置、計算機設備和存儲介質。
背景技術
PDF(Portable Document Format)即便攜式文檔格式,由AdobeSystems用于進行文件交換所開發(fā)出的文件格式,其與應用程序、操作系統(tǒng)及其他硬件均無交互關系。PDF文檔以PostScript語言圖像模型為基礎,保證PDF文檔在任何一臺打印機上都可具有精確的顏色和準確的打印效果,即PDF會如實地再現(xiàn)PDF文檔中的每一個字符、顏色以及圖像等內(nèi)容。隨著計算機及互聯(lián)網(wǎng)技術的快速發(fā)展,PDF文檔越來越廣泛地用在經(jīng)濟、金融、教育、科研及學術等各種領域。由于PDF設計目的只是為了展示文檔或用于打印文檔,而沒有與其他計算機程序進行通訊與交互的功能。因此,PDF文檔中所包含的大量數(shù)據(jù),特別其中包含的表格數(shù)據(jù),難以被其他計算機程序直接使用。
目前對于PDF文檔內(nèi)部的表格數(shù)據(jù),可以通過PDF表格抽取的方式來進行信息提取,PDF表格抽取即將PDF文檔中的表格數(shù)據(jù),抽取為結構化信息。然而在PDF表格內(nèi)存在邊框缺失時,則不能組成表格,從而無法抽取完整的表格數(shù)據(jù)。
此時,為了提取PDF表格內(nèi)的完整數(shù)據(jù),會采用文本位置聚類法來進行,此時會完全丟棄邊框信息,轉而使用文字本身的位置信息,如一般表格中同一列的文本會左對齊、右對齊或居中對齊,根據(jù)這些對齊信息通過某些算法猜測某些文字可能屬于某一列,從而抽取表格信息。然而這種方法類似于將信息提取問題轉化為無邊框表格抽取,表格數(shù)據(jù)的提取準確率較低。
發(fā)明內(nèi)容
基于此,有必要針對上述技術問題,提供一種能夠提高邊框缺失環(huán)境下的PDF表格數(shù)據(jù)提取準確率的表格數(shù)據(jù)提取方法、裝置、計算機設備和存儲介質。
一種表格數(shù)據(jù)提取方法,所述方法包括:
獲取第一方向邊框缺失表格;
獲取所述第一方向邊框缺失表格中的關鍵字;
通過預設語言模型,識別不同表格單元中所述關鍵字的主從關系,所述預設語言模型用于識別關鍵字屬于同一語句的概率,所述不同表格單元為表格中沿第二方向的表格單元,所述第一方向為表格列方向,所述第二方向為表格行方向,或所述第一方向為表格行方向,所述第二方向為表格列方向;
根據(jù)所述主從關系補充所述第一方向邊框缺失表格中的第一方向邊框;
識別并提取所述補充后的表格內(nèi)的表格數(shù)據(jù)。
一種表格數(shù)據(jù)提取裝置,所述裝置包括:
表格獲取模塊,用于獲取第一方向邊框缺失表格;
關鍵字獲取模塊,用于獲取所述第一方向邊框缺失表格中的關鍵字;
主從關系識別模塊,用于通過預設語言模型,識別不同表格單元中所述關鍵字的主從關系,所述預設語言模型用于識別關鍵字屬于同一語句的概率;
邊框補充模塊,用于通過預設語言模型,識別不同表格單元中所述關鍵字的主從關系,所述預設語言模型用于識別關鍵字屬于同一語句的概率,所述不同表格單元為表格中沿第二方向的表格單元,所述第一方向為表格列方向,所述第二方向為表格行方向,或所述第一方向為表格行方向,所述第二方向為表格列方向;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011269426.9/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種整體環(huán)保封閉料棚
- 下一篇:一種中藥阿膠的煎服方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





