[發明專利]表格結構識別方法、裝置、電子設備及存儲介質有效
| 申請號: | 202110206569.3 | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112949443B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 王文浩 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V30/414;G06V30/19;G06V30/18 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 結構 識別 方法 裝置 電子設備 存儲 介質 | ||
本發明涉及數據分析技術領域,揭露了一種表格結構識別方法,包括:獲取訓練數據集,并構建標簽;利用所述訓練數據集和所述標簽對原始表格結構識別模型進行訓練,得到標準表格結構識別模型;獲取待識別表格頁面,并構建文檔節點特征與表格線特征;利用所述標準表格結構識別模型對所述文檔節點特征與表格線特征進行表格檢測與識別,得到預測表格結構關系;根據所述預測表格結構關系對所述待識別表格頁面進行還原處理,得到表格結構。此外,本發明還涉及區塊鏈技術,所述待識別表格頁面可存儲于區塊鏈的節點。本發明還提出一種表格結構識別裝置、電子設備以及計算機可讀存儲介質。本發明可以解決對于圖像的依賴性和表格識別效果較差的問題。
技術領域
本發明涉及數據分析技術領域,尤其涉及一種表格結構識別方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
隨著大數據時代的到來,如何從海量數據中獲取關鍵、有價值的信息越來越受到重視。如從各大醫院、體檢機構中患者費用清單、化驗單、體檢報告等單據中提取信息,可以提高醫生后續的診斷效率。文檔中的表格結構可以清晰顯示出原始文檔數據的邏輯與定量關系,很多信息通常以表格的形式呈現,從表格中提取信息前就必不可少的需要先還原表格結構。
傳統的表格結構識別是采用基于圖像處理的方法,采用圖像中檢測或分割的方法進行表格結構的識別與還原。但這種方法高度依賴于圖像質量,當圖像質量低、背景復雜、表格色彩底紋明顯時,表格結構的檢測和識別效果較差,同時不具有良好的泛化能力。
發明內容
本發明提供一種表格結構識別方法、裝置及計算機可讀存儲介質,其主要目的在于解決對于圖像的依賴性和表格識別效果較差的問題。
為實現上述目的,本發明提供的一種表格結構識別方法,包括:
獲取訓練數據集,并構建所述訓練數據集的標簽;
利用所述訓練數據集和所述標簽對預構建的原始表格結構識別模型進行訓練,得到標準表格結構識別模型;
獲取待識別表格頁面,并構建所述待識別表格頁面的文檔節點特征與表格線特征;
利用所述標準表格結構識別模型對所述文檔節點特征與表格線特征進行表格檢測與識別,得到預測表格結構關系;
根據所述預測表格結構關系對所述待識別表格頁面進行還原處理,得到表格結構。
可選地,所述獲取訓練數據集,包括:
從網頁中爬取多個PDF文檔,并對多個所述PDF文檔進行解析和篩選,得到多個表格頁面;
將每個所述表格頁面轉化為頁面圖片,并對所述頁面圖片進行文字檢測與識別,得到識別結果;
根據所述識別結果將所述頁面圖片中不符合預設規則的頁面圖片進行刪除,得到訓練數據集。
可選地,所述構建所述訓練數據集的標簽,包括:
將所述訓練數據集進行文本框檢測與識別,得到多個文本框;
將所述多個文本框中每個文本框作為一個節點,并根據預設關系條件判斷任意兩個節點間的鄰接關系,得到表格結構關系;
根據所述表格結構關系構造鄰接矩陣,得到標簽。
可選地,所述利用所述訓練數據集和所述標簽對預構建的原始表格結構識別模型進行訓練,得到標準表格結構識別模型,包括:
對所述訓練數據集進行預處理,得到訓練特征;
通過所述原始表格結構識別模型對所述訓練特征進行表格識別,得到關系預測矩陣;
根據所述標簽和預設的損失函數計算所述關系預測矩陣的損失值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110206569.3/2.html,轉載請聲明來源鉆瓜專利網。





