[發明專利]一種基于圖注意力機制的PDF表格結構識別方法在審
| 申請號: | 201910875019.3 | 申請日: | 2019-09-17 |
| 公開(公告)號: | CN110751038A | 公開(公告)日: | 2020-02-04 |
| 發明(設計)人: | 毛先領;遲澤聞;徐恒達 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04 |
| 代理公司: | 11639 北京理工正陽知識產權代理事務所(普通合伙) | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 單元格 表格結構識別 復雜表格 無向圖 神經網絡模型預測 預處理 數據挖掘技術 注意力機制 結構識別 鄰接關系 位置坐標 文檔分析 數據集 圖構建 構建 分類 預測 | ||
1.一種基于圖注意力機制的PDF表格結構關系識別方法,其特征在于:包括以下步驟:
步驟一、預處理:獲取表格中的所有單元格及其位置坐標;
步驟二、圖構建:對獲取的所述單元格建立無向圖;
步驟三、關系預測:通過對所述無向圖上的邊進行分類,使用神經網絡模型預測單元格之間的鄰接關系。
2.根據權利要求1所述的方法,其特征在于:所述獲取表格中的所有單元格及其位置坐標為根據PDF的存儲格式,抽取出文檔中所有的文本字符,并將所有距離小于閾值d的字符組成一個單元格,記錄下每個單元格的位置坐標。
3.根據權利要求1所述的方法,其特征在于:所述對獲取的所述單元格建立無向圖為采用K近鄰的方法對所述單元格建立無向圖。
4.根據權利要求1所述的方法,其特征在于:所述分類為垂直相鄰、水平相鄰、不相鄰。
5.根據權利要求4所述的方法,其特征在于:所述神經網絡模型為基于圖注意力機制的邊分類模型。
6.根據權利要求5所述的方法,其特征在于:所述基于圖注意力機制的邊分類模型由兩個處理點特征和邊特征的線性層、2N個圖注意力構件、最后的線性層和Softmax層組成,其中,2N個圖注意力構件包括N個點到邊注意力構件和N個邊到點注意力構件,點到邊注意力構件負責將點的特征信息融入到邊的特征中,邊到點注意力構件負責將邊的特征信息融入到點的特征中,點到邊注意力構件和邊到點注意力構件內部結構完全相同;輸入的點特征矩陣與邊特征矩陣分別輸入兩個線性層后的輸出均與第一層點到邊注意力構件和邊到點注意力構件相連,每一層點到邊注意力構件和邊到點注意力構件都與下一層點到邊注意力構件和邊到點注意力構件相連,最后一層的點到邊注意力構件與最后的線性層相連,最后的線性層與Softmax層相連,輸入的點和邊的鄰接關系矩陣B分別與每一層的點到邊注意力構件和邊到點注意力構件相連。
7.根據權利要求6所述的方法,其特征在于:所述圖注意力構件由線性層、圖注意力層、Add&Norm層、前饋神經網絡層和Add&Norm層依次連接而成,輸入的邊特征矩陣HE經過線性變換后,得到“查詢”特征矩陣Q,點特征矩陣HV分別經過兩個線性層后,得到“鍵”特征矩陣K和“值”特征矩陣V,Q、K、V和輸入的點和邊的鄰接關系矩陣B在圖注意力層使用下述公式進行計算得到HE′:
其中,KT表示K矩陣的轉置,d表示特征的維度,softmaxB表示以鄰接矩陣B為掩碼的softmax操作,即只對B矩陣中值為1的位置計算,忽略掉B矩陣中值為0的位置;
將HE′依次經過一個Add&Norm層、一個前饋神經網絡和另一個的Add&Norm層后,得到最終的邊特征隱表示各層的計算公式如下:
HE″=Add&Norm(HE,HE′)=LayerNorm(HE+HE′)
HE″′=FFN(HE″)
其中,LayerNorm是層標準化(Layer Normalization)運算;FFN(x)=W2 max(0,W1x+b1)+b2,W1,W2,b1,b2是可學習的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910875019.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車身顏色識別的方法及終端設備
- 下一篇:多視圖3D人體姿態估計方法及相關裝置





