[發明專利]一種圖片中表格的識別方法及裝置有效
| 申請號: | 201910249573.0 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN109993112B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 徐青松;李青 | 申請(專利權)人: | 杭州睿琪軟件有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06K9/68 |
| 代理公司: | 上海思捷知識產權代理有限公司 31295 | 代理人: | 王宏婧 |
| 地址: | 310053 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 圖片 表格 識別 方法 裝置 | ||
本發明提供了一種圖片中表格的識別方法及裝置,所述方法包括:采用預先訓練的表格區域識別模型,識別出待識別的圖片中的表格區域;采用預先訓練的表格單元格識別模型,識別出所述表格區域中單元格的線條;采用預先訓練的表格文字區域識別模型,識別出所述表格區域中的文字區域;將識別出的表格單元格的線條和識別出的全部文字區域相結合,確定所述表格區域的單元格,并對所述表格區域的單元格進行重制;將所述表格區域中每個單元格區域進行切分,采用預先訓練的字符識別模型,識別出每個單元格區域中的字符內容;將識別出的字符內容填入到重制后的單元格中,形成識別后的表格。應用本發明提供的方案可以準確地自動識別圖片中表格的信息。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種圖片中表格的識別方法、裝置、電子設備和計算機可讀存儲介質。
背景技術
表格是文檔中常用的數據資料載體,目前大量應用于商業、社會調查等各種場合。通常在獲得表格后,需要對表格內容進行統計分析。如果表格是紙質或圖片格式的,常常是先由人工在電子設備上將紙質表格制成電子表格,然后再進行后續的統計分析工作,這樣會極大地浪費人力、物力。因此,如何利用電子設備準確地自動識別圖片中表格的信息是一項亟待解決的問題。
發明內容
本發明的目的在于提供一種圖片中表格的識別方法、裝置、電子設備和計算機可讀存儲介質,以準確地自動識別圖片中表格的信息。
為達到上述目的,本發明提供了一種圖片中表格的識別方法,所述方法包括:
獲取待識別的圖片;
采用預先訓練的表格區域識別模型,識別出所述圖片中的表格區域;
采用預先訓練的表格單元格識別模型,識別出所述表格區域中單元格的線條;
采用預先訓練的表格文字區域識別模型,識別出所述表格區域中的文字區域;
將識別出的表格單元格的線條和識別出的全部文字區域相結合,確定所述表格區域的單元格,并對所述表格區域的單元格進行重制;
將所述表格區域中每個單元格區域進行切分,采用預先訓練的字符識別模型,識別出每個單元格區域中的字符內容;
將識別出的字符內容填入到重制后的單元格中,形成識別后的表格。
可選的,在將所述表格區域中每個單元格區域進行切分之后,還包括:記錄每個單元格區域的位置信息;
所述將識別出的字符內容填入到重制后的單元格中,包括:
將識別出的字符內容根據對應的單元格區域的位置信息填入到重制后的單元格中。
可選的,所述將識別出的表格單元格的線條和識別出的全部文字區域相結合,確定所述表格區域的單元格,包括:
根據識別出的文字區域的行高、行距以及字距,調整錯誤識別的文字區域;
根據調整后的文字區域,補全所述表格區域模型未識別出的單元格的線條;
根據單元格的線條,調整所述表格區域中行和列對應的單元格。
可選的,所述方法還包括:
對識別出的字符內容中的文字、數字、字母和符號進行分類,根據分類結果對識別出的字符內容進行修正處理。
可選的,所述方法還包括:
根據識別出來的字符內容在標準數據庫中進行檢索,判斷檢索結果與識別出的字符內容是否一致,如果不一致,則根據檢索結果對識別出的字符內容進行修正處理。
可選的,所述圖片中包括:表格名稱;
所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州睿琪軟件有限公司,未經杭州睿琪軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910249573.0/2.html,轉載請聲明來源鉆瓜專利網。





