[發明專利]表格識別方法及相關裝置和電子設備、存儲介質在審
| 申請號: | 202110691025.0 | 申請日: | 2021-06-22 |
| 公開(公告)號: | CN113536951A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 王烽人 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 何倚雯 |
| 地址: | 230088 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 識別 方法 相關 裝置 電子設備 存儲 介質 | ||
本申請公開了一種表格識別方法及相關裝置和電子設備、存儲介質,其中,表格識別方法包括:提取表格圖像的表格特征圖;表格圖像包含若干目標單元格;基于表格特征圖進行行列識別,得到行分隔線和列分隔線;在表格特征圖提取得到若干基礎單元格的第一特征;其中,若干基礎單元格是利用行分隔線和列分隔線劃分得到的;基于若干基礎單元格的第一特征,得到目標單元格;基于目標單元格的第二特征,得到目標單元格內表格文本;其中,第二特征是在表格特征圖提取得到的。上述方案,能夠降低表格識別的處理負荷。
技術領域
本申請涉及圖像處理技術領域,特別是涉及一種表格識別方法及相關裝置和電子設備、存儲介質。
背景技術
表格作為一種組織整理數據的有效手段,通常存在于諸如科研文章、期刊報紙、調研報告等諸多文件中。因此,在基于上述文件執行諸如篇章解析、摘要生成等任務的情況下,需要先對表格進行識別。
表格識別任務通常包括表格結構識別和表格內容識別,即一方面需要識別出表格各個單元格,另一方面還需要識別出各個單元格內的表格文本,由此可見表格識別任務之復雜。而目前,現有的表格圖像的識別方式,在面對復雜的表格識別任務時,仍然存在處理負荷較高的技術問題。有鑒于此,如何降低表格識別的處理負荷成為亟待解決的問題。
發明內容
本申請主要解決的技術問題是提供一種表格識別方法及相關裝置和電子設備、存儲介質,能夠降低表格識別的處理負荷。
為了解決上述技術問題,本申請第一方面提供了一種表格識別方法,包括:提取表格圖像的表格特征圖;表格圖像包含若干目標單元格;基于表格特征圖進行行列識別,得到行分隔線和列分隔線;在表格特征圖提取得到若干基礎單元格的第一特征;其中,若干基礎單元格是利用行分隔線和列分隔線劃分得到的;基于若干基礎單元格的第一特征,得到目標單元格;基于目標單元格的第二特征,得到目標單元格內表格文本;其中,第二特征是在表格特征圖提取得到的。
為了解決上述技術問題,本申請第二方面提供了一種表格識別裝置,包括:表格特征提取模塊、行列分割線識別模塊、單元格特征提取模塊、目標單元格識別模塊和表格文本識別模塊,表格特征提取模塊用于提取表格圖像的表格特征圖;表格圖像包含若干目標單元格;行列分隔線識別模塊用于基于表格特征圖進行行列識別,得到行分隔線和列分隔線;單元格特征提取模塊用于在表格特征圖提取得到若干基礎單元格的第一特征;其中,若干基礎單元格是利用行分隔線和列分隔線劃分得到的;目標單元格識別模塊用于基于若干基礎單元格的第一特征,得到目標單元格;表格文本識別模塊用于基于目標單元格的第二特征,得到目標單元格內表格文本;其中,第二特征是在表格特征圖提取得到的。
為了解決上述技術問題,本申請第三方面提供了一種電子設備,包括相互耦接的存儲器和處理器,存儲器中存儲有程序指令,處理器用于執行程序指令以實現上述第一方面中的表格識別方法。
為了解決上述技術問題,本申請第四方面提供了一種計算機可讀存儲介質,存儲有能夠被處理器運行的程序指令,程序指令用于實現上述第一方面中的表格識別方法。
上述方案,提取表格圖像的表格特征圖,且表格圖像包含若干目標單元格,基于表格特征圖進行行列識別,得到行分隔線和列分隔線,并在表格特征圖提取得到若干基礎單元格的第一特征,且若干基礎單元格是利用行分隔線和列分隔線劃分得到的,在此基礎上,基于若干基礎單元格的第一特征,得到目標單元格,并基于目標單元格的第二特征,得到目標單元格內表格文本,且第二特征是在表格特征圖提取得到的,由此可見,在表格識別的整個過程中,所涉及到的行列分隔線、目標單元格和表格文本歸根結底均是通過表格特征圖識別得到的,即能夠有效提高表格特征圖的復用率,有利于大大降低表格識別的處理負荷。
附圖說明
圖1是本申請表格識別方法一實施例的流程示意圖;
圖2是表格圖像一實施例的示意圖;
圖3是表格圖像另一實施例的示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110691025.0/2.html,轉載請聲明來源鉆瓜專利網。





