[發明專利]一種表格識別方法及裝置有效
| 申請號: | 202210018252.1 | 申請日: | 2022-01-07 |
| 公開(公告)號: | CN114359938B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 張文強;黃燦 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G06V30/412 | 分類號: | G06V30/412;G06V20/62;G06V30/10;G06V10/44;G06V10/764;G06V10/82;G06V30/262;G06N3/0464;G06N3/08 |
| 代理公司: | 北京信遠達知識產權代理有限公司 11304 | 代理人: | 儲倩 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 表格 識別 方法 裝置 | ||
本申請公開了一種表格識別方法,可以獲取包括表格的待處理圖像,并確定所述待處理圖像中各個單元格的信息,所述各個單元格的信息,包括所述各個單元格的包圍框的位置。而后,根據所述各個單元格的信息,得到所述各個單元格在行方向上的父單元格和所述各個單元格在列方向的父單元格。進一步地,可以根據所述各個單元格在行方向上的父子關系和所述各個單元格在列方向上的父子關系,得到所述各個單元格的結構坐標,其中,所述結構坐標包括:起始行、起始列、終止行和終止列。由于與圖結構相比,單元格在行方向的父子關系和單元格在列方向的父子關系更為簡單。因此,利用本方案,能夠減少確定單元格的結構坐標的計算量。
技術領域
本申請涉及圖像處理領域,特別是涉及一種表格識別方法及裝置。
背景技術
表格識別包括表格結構識別(Table?Structure?Recognition,TSR)和表格內容識別(Table?Content?Recognition,TCR)兩部分。其中:結構識別是指從包括表格的圖像中解析出每個單元格所在的行列位置和具體的包圍框物理位置。內容識別指的是將每個單元格內的文本識別出來。通過結構識別和內容識別兩個步驟,即可得到每個單元格的結構坐標和其中的文本內容,進而可將該表格轉換為excel或word等格式,便于進一步人工校對和編輯,大大方便了表格信息的數字化處理流程。
目前識別表格結構的方法比較復雜,會耗費較多的計算資源。
因此,急需一種方案,能夠解決上述問題。
發明內容
本申請所要解決的技術問題是如何簡單的識別出表格結構,提供一種表格識別方法及裝置。
第一方面,本申請實施例提供了一種表格識別方法,所述方法包括:
獲取包括表格的待處理圖像,并確定所述待處理圖像中各個單元格的信息,所述各個單元格的信息,包括所述各個單元格的包圍框的位置;
根據所述各個單元格的信息,得到所述各個單元格在行方向上的父單元格和所述各個單元格在列方向的父單元格;
根據所述各個單元格在行方向上的父子關系和所述各個單元格在列方向上的父子關系,得到所述各個單元格的結構坐標,其中,所述結構坐標包括:起始行、起始列、終止行和終止列。
可選的,所述各個單元格的信息,還包括:
所述各個單元格內的文本的詞嵌入向量,和/或,所述各個單元格的視覺特征。
可選的,所述根據所述各個單元格的信息,得到所述各個單元格在行方向上的父單元格和所述各個單元格在列方向的父單元格,包括:
將所述各個單元格的信息輸入機器學習模型,得到所述各個單元格在行方向上的父單元格和所述各個單元格在列方向的父單元格。
可選的,所述機器學習模型包括:
特征提取模塊、第一決策模塊和第二決策模塊;
所述特征提取模塊,用于對所述各個單元格的信息進行處理,得到特性序列;
所述第一決策模塊用于根據所述特征序列,得到所述各個單元格在行方向上的父單元格;
所述第二決策模塊用于根據所述特征序列,得到所述各個單元格在列方向上的父單元格。
可選的,所述特征提取模塊為Transformer模型的編碼器。
可選的,所述第一決策模塊和第二決策模塊均為自注意力self-attention模塊。
可選的,所述根據所述各個單元格在行方向上的父子關系和所述各個單元格在列方向上的父子關系,得到所述各個單元格的結構坐標,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210018252.1/2.html,轉載請聲明來源鉆瓜專利網。





