[發明專利]表格識別方法、裝置以及計算機可讀存儲介質有效
| 申請號: | 202011407580.8 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112528813B | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 陳靜 | 申請(專利權)人: | 上海云從企業發展有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京瀚仁知識產權代理事務所(普通合伙) 11482 | 代理人: | 屠曉旭;宋寶庫 |
| 地址: | 201203 上海市浦東新區中國(上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格 識別 方法 裝置 以及 計算機 可讀 存儲 介質 | ||
本發明涉及表格識別技術領域,具體提供了一種表格識別方法,旨在解決現有表格識別方法泛化性差、精準度不佳的技術問題。根據本發明實施例的方法,可以采用預設的圖像識別模型獲取待識別表格圖像的表格線前景圖和文本前景圖;根據表格線前景圖獲取待識別表格圖像的表格結構;根據單元格的位置、第一文本行位置和第二文本行位置,獲取與單元格關聯的最終的文本行位置;根據最終的文本行位置從待識別表格圖像中獲取相關聯單元格對應的文本行圖像,對文本行圖像進行文本識別并且將識別出的文本信息存儲至單元格內,以形成識別后的表格。通過上述步驟,可以提高表格識別的精準度,并且泛化性好。
技術領域
本發明涉及表格識別技術領域,具體涉及一種表格識別方法、裝置以及計算機可讀存儲介質。
背景技術
表格是文本的常見內容,工作中常常需要將圖像中的表格轉化為可編輯的文件格式,手動輸入是最簡單的方法,但這一方法在處理大量表格時效率很低,而且較容易出錯。目前較常用的方法是使用圖像獲取設備獲取表格圖像后,采用圖像特征提取表格框線,比如文本塊特征、表格區域邏輯關系特征、線交點特征等對表格圖像進行識別,進而輸出識別結果。
然而,上述識別方法對清晰或者比較簡單的表格圖像進行識別的效果較好,對于存在表格線斷裂和彎曲等問題的低質量表格圖像或者比較復雜的表格圖像進行識別的效果不佳,甚至出現漏識別的情況,識別精準度差。
相應地,本領域需要一種新的表格識別方案來解決上述問題。
發明內容
為了克服上述缺陷,提出了本發明,以提供解決或至少部分地解決現有表格識別方法泛化性差,識別精準度不佳的技術問題的表格識別方法、裝置以及計算機可讀存儲介質。
第一方面,提供一種表格識別方法,所述表格識別方法包括:
采用預設的圖像識別模型獲取待識別表格圖像的表格線前景圖和文本前景圖;
根據所述表格線前景圖獲取所述待識別表格圖像的表格結構;
對所述待識別表格圖像進行文本行檢測,以獲取所述待識別表格圖像中文本行的第一文本行位置;
根據所述表格結構中單元格的位置,獲取在所述文本前景圖中相應位置處存儲的所述待識別表格圖像中文本行的第二文本行位置;
根據所述單元格的位置、所述第一文本行位置和所述第二文本行位置,獲取與所述單元格關聯的最終的文本行位置;
根據所述最終的文本行位置從所述待識別表格圖像中獲取相關聯單元格對應的文本行圖像,對所述文本行圖像進行文本識別并且將識別出的文本信息存儲至所述單元格內,以形成識別后的表格。
在上述表格識別方法的一個技術方案中,“獲取待識別表格圖像的表格線前景圖和文本前景圖”的步驟具體包括:
采用所述預設的圖像識別模型對所述待識別表格圖像進行表格線與文本行的位置識別,并且根據位置識別的結果獲取所述表格線前景圖和所述文本前景圖;
其中,所述預設的圖像識別模型是基于表格圖像樣本以及相應的表格線前景標簽圖和文本前景標簽圖進行訓練得到的;
所述表格線前景標簽圖與所述表格圖像樣本的尺寸相同,所述表格線前景標簽圖中每個像素點的位置存儲的標簽值取決于所述表格圖像樣本中相應位置處是否存在表格線;
所述文本前景標簽圖與所述表格圖像樣本的尺寸相同,所述文本前景標簽圖中每個像素點的位置存儲的標簽值取決于所述表格圖像樣本中相應位置處是否存在文本行。
在上述表格識別方法的一個技術方案中,所述預設的圖像識別模型是通過下列方式訓練得到的:
利用下式所示的損失函數并且根據所述表格圖像樣本以及相應的表格線前景標簽圖和文本前景標簽圖,計算所述圖像識別模型的損失值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海云從企業發展有限公司,未經上海云從企業發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011407580.8/2.html,轉載請聲明來源鉆瓜專利網。





