[發明專利]表格結構識別方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110206569.3 | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112949443B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 王文浩 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V30/414;G06V30/19;G06V30/18 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 結構 識別 方法 裝置 電子設備 存儲 介質 | ||
1.一種表格結構識別方法,其特征在于,所述方法包括:
獲取訓練數據集,將所述訓練數據集進行文本框檢測與識別,得到多個文本框,將所述多個文本框中每個文本框作為一個節點,并根據預設關系條件判斷任意兩個節點間的鄰接關系,得到表格結構關系,根據所述表格結構關系構造鄰接矩陣,得到標簽;
利用所述訓練數據集和所述標簽對預構建的原始表格結構識別模型進行訓練,得到標準表格結構識別模型,所述標準表格結構識別模型包括翻譯層、變換層和全連接層;
獲取待識別表格頁面,并構建所述待識別表格頁面的文檔節點特征與表格線特征;
將所述文檔節點特征和所述表格線特征整合,得到輸入特征,利用所述翻譯層對所述輸入特征進行編碼和解碼,得到各個節點特征,利用所述變換層對任意兩個節點之間的所述節點特征輸入進行雙線性變換,得到邊特征,利用所述全連接層對任意兩個節點之間的鄰接關系,得到預測表格結構關系,其中,所述預測表格結構關系包括表關系、行關系和列關系;
根據所述預測表格結構關系對所述待識別表格頁面進行還原處理,得到表格結構。
2.如權利要求1所述的表格結構識別方法,其特征在于,所述獲取訓練數據集,包括:
從網頁中爬取多個PDF文檔,并對多個所述PDF文檔進行解析和篩選,得到多個表格頁面;
將每個所述表格頁面轉化為頁面圖片,并對所述頁面圖片進行文字檢測與識別,得到識別結果;
根據所述識別結果將所述頁面圖片中不符合預設規則的頁面圖片進行刪除,得到訓練數據集。
3.如權利要求1所述的表格結構識別方法,其特征在于,所述利用所述訓練數據集和所述標簽對預構建的原始表格結構識別模型進行訓練,得到標準表格結構識別模型,包括:
對所述訓練數據集進行預處理,得到訓練特征;
通過所述原始表格結構識別模型對所述訓練特征進行表格識別,得到關系預測矩陣;
根據所述標簽和預設的損失函數計算所述關系預測矩陣的損失值;
根據所述損失值對所述原始表格結構識別模型的參數進行調整,并返回上述通過所述原始表格結構識別模型對所述訓練特征進行表格識別,得到關系預測矩陣的步驟,直到所述損失值不再下降,得到標準表格結構識別模型。
4.如權利要求1所述的表格結構識別方法,其特征在于,所述構建所述待識別表格頁面的文檔節點特征與表格線特征,包括:
對所述待識別表格頁面進行文本框檢測與識別,得到文本框,其中,所述文本框包括多個文本條和對應的文本框坐標;
根據所述文本框的文本框坐標構建所述文本框的位置特征;
根據所述文本框的文本條構建所述文本框的文本特征;
根據預設線條規則構建所述文本框的線類型特征;
將所述文本框的位置特征、所述文本框的文本特征和所述文本框的線類型特征匯集得到文檔節點特征;
對所述待識別表格頁面進行表格線檢測,得到表格線;
根據所述表格線的端點坐標構建所述表格線的位置特征;
根據預設文本條件構建所述表格線的文本特征;
根據所述表格線的類型構建所述表格線的線類型特征;
將所述表格線的位置特征、所述表格線的文本特征和所述表格線的線類型特征匯集得到表格線特征。
5.如權利要求1所述的表格結構識別方法,其特征在于,所述根據所述預測表格結構關系對所述待識別表格頁面進行還原處理,得到表格結構,包括:
對所述待識別表格頁面進行文本框檢測與識別,得到多個文本框;
根據所述預測表格結構關系中的表關系將每個所述文本框作為節點,構建無向圖,得到表關系圖;
通過求解所述表關系圖的連通分量將所述節點劃分為多個表格集;
根據所述預測表格結構關系的行關系和列關系對每個所述表格集分別構建行關系圖和列關系圖;
利用極大團算法求解所述行關系圖中的行極大團,并按照行極大團的縱坐標從大到小進行排序,得到行集合;
利用極大團算法求解所述列關系圖中的列極大團,并按照列極大團的橫坐標從小到大進行排序,得到列集合;
將所述行集合和所述列集合進行整合,得到表格結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110206569.3/1.html,轉載請聲明來源鉆瓜專利網。





