[發明專利]一種基于圖注意力機制的PDF表格結構識別方法在審
| 申請號: | 201910875019.3 | 申請日: | 2019-09-17 |
| 公開(公告)號: | CN110751038A | 公開(公告)日: | 2020-02-04 |
| 發明(設計)人: | 毛先領;遲澤聞;徐恒達 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 11639 北京理工正陽知識產權代理事務所(普通合伙) | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 單元格 表格結構識別 復雜表格 無向圖 神經網絡模型預測 預處理 數據挖掘技術 注意力機制 結構識別 鄰接關系 位置坐標 文檔分析 數據集 圖構建 構建 分類 預測 | ||
本發明涉及一種基于圖注意力機制的PDF表格結構識別方法,屬于數據挖掘技術中的文檔分析技術領域;包括以下步驟:一、預處理:獲取表格中的所有單元格以及它們的位置坐標;二、圖構建:對得到的單元格建立無向圖;三、關系預測:通過對構建的無向圖上的邊進行分類,使用神經網絡模型預測出單元格之間的鄰接關系。對比現有技術,本發明首次提出解決PDF中復雜表格結構的識別方法,在兩個表格結構識別數據集上都取得了最好的效果,尤其在復雜表格結構識別上,效果有明顯的提高。
技術領域
本發明涉及一種表格結構識別方法,具體涉及基于圖注意力機制的PDF表格結構識別技術,屬于數據挖掘技術中的文檔分析技術領域。
背景技術
表格結構識別,是識別表格的內部結構的任務,它是讓機器能夠理解表格的一個重要步驟。識別出的機器可理解的表格有非常多的應用,如問答系統、對話系統、表格生成文本。
如今,在諸如文本、HTML和圖片等格式上進行表格結構識別都有相關研究。作為一種流行并廣泛使用的文件格式,PDF上進行表格結構識別也引起了廣泛關注。現有方法可以分為基于規則的方法和數據驅動的方法。基于規則的方法主要通過人工設定一些規則來確定表格結構。例如,通過文本的垂直重合長度,來確定是否在同一列。數據驅動的方法則利用深度學習的技術來處理這一任務。現有的數據驅動方法有兩個,一個是利用圖像語義分割技術將表格圖片分割為若干行和列作為識別出的表格結構。另一個方法是使用圖像描述技術,通過訓練一個圖片到序列的模型,將輸入的表格圖片編碼為中間表示,然后解碼為一個標記符號序列,這個標記符號序列就描述了表格的結構。
然而,現有方法都難以準確識別出PDF文件中的復雜表格的結構。復雜表格在這里指至少有一個跨行或跨列單元格的表格。這種跨行、跨列單元格雖然在復雜表格中只占有很小的比例,但是這些單元格更傾向于成為表頭,而理解表頭對理解整個表格是至關重要的。因此復雜表格的結構識別是一個需要解決的重要問題。
發明內容
本發明的目的是為了解決現有方法難以準確識別出PDF格式的復雜表格的結構問題,為了提高復雜表格上的結構識別的準確率和召回率,提出了一種基于圖注意力機制的PDF表格結構識別方法。本方法將PDF格式的表格作為輸入,最終識別出表格中單元格之間的鄰接關系,作為表格結構識別的結果。
為實現上述目的,本發明所采用的技術方案如下:
一種基于圖注意力機制的PDF表格結構關系識別方法,包括以下步驟:
一、預處理:獲取表格中的所有單元格以及它們的位置坐標;
二、圖構建:對得到的單元格建立無向圖;
三、關系預測:通過對構建的無向圖上的邊進行分類,使用神經網絡模型預測出單元格之間的鄰接關系。
作為優選,所述獲取表格中的所有單元格及其位置坐標為根據PDF的存儲格式,抽取出文檔中所有的文本字符,并將所有距離小于閾值d的字符組成一個單元格,記錄下每個單元格的位置坐標。
作為優選,所述對獲取的所述單元格建立無向圖為采用K近鄰的方法對所述單元格建立無向圖。
作為優選,所述分類為垂直相鄰、水平相鄰、不相鄰。
作為優選,所述神經網絡模型為基于圖注意力機制的邊分類模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910875019.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車身顏色識別的方法及終端設備
- 下一篇:多視圖3D人體姿態估計方法及相關裝置





