[發明專利]基于特征提取的報表識別方法、裝置、電子設備及介質在審
| 申請號: | 202110728172.0 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113420684A | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 劉海懷;張燦豪;張杰 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/46;G06K9/62;G06N3/04;G06N3/08;G06K9/38;G06T5/00 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 提取 報表 識別 方法 裝置 電子設備 介質 | ||
本發明涉及數據展示技術領域,揭露一種基于特征提取的報表識別方法,包括:獲取報表圖像的存儲路徑,根據所述存儲路徑獲取所述報表圖像,以及提取所述報表圖像的圖像特征;根據所述圖像特征確定所述報表圖像的文本方向;判斷所述文本方向是否為預設方向;若是,確認所述報表圖像為目標報表圖像,若否,則將所述報表圖像進行角度轉換,得到所述目標報表圖像;獲取預訓練的特征提取網絡,利用所述特征提取網絡提取所述目標報表圖像的文本信息,得到目標文本。本發明還提出一種基于特征提取的報表識別裝置、設備及存儲介質。本發明還涉及區塊鏈技術,所述報表圖像可存儲于區塊鏈節點中。本發明可以提高報表識別的準確性。
技術領域
本發明涉及數據展示技術領域,尤其涉及一種基于特征提取的報表識別方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
現有的數據管理方式一般采用報表的形式將數據進行錄入,這種方式便于數據的查看和整理,也方便體現數據間的變化。在將數據進行錄入過程中,通常需要識別報表,然而由于報表的樣式各異、質量殘次不齊,容易造成各種掃描后的報表圖像在識別的過程中出現各種識別錯誤,導致報表識別的準確率不高。
發明內容
本發明提供一種基于特征提取的報表識別方法、裝置、電子設備及計算機可讀存儲介質,其主要目的在于提高報表識別的準確性。
為實現上述目的,本發明提供的一種基于特征提取的報表識別方法,包括:
獲取報表圖像的存儲路徑,根據所述存儲路徑獲取所述報表圖像,以及提取所述報表圖像的圖像特征;
根據所述圖像特征確定所述報表圖像的文本方向;
判斷所述文本方向是否為預設方向;
若是,確認所述報表圖像為目標報表圖像;
若否,則將所述報表圖像進行角度轉換,得到所述目標報表圖像;
獲取預訓練的特征提取網絡,利用所述特征提取網絡提取所述目標報表圖像的文本信息,得到目標文本。
可選地,所述根據所述存儲路徑獲取所述報表圖像,包括:
從所述存儲路徑中獲取所述報表圖像的存儲地址和存儲流水號;
在所述存儲地址對應的數據庫中查詢所述存儲流水號對應的報表圖像是否唯一;
若所述存儲流水號對應的報表圖像不唯一,則將所述存儲流水號對應的報表圖像舍棄,并再次獲取所述獲取報表圖像的存儲路徑;
若所述存儲流水號對應的報表圖像唯一,則根據所述存儲地址獲取所述報表圖像。
可選地,所述提取所述報表圖像的圖像特征之前,所述方法還包括:
獲取所述報表圖像,并對所述報表圖像進行二值化操作,得到二值化報表圖像;
通過對所述二值化報表圖像進行去噪,得到去噪報表圖像;
通過預設的直線檢測法檢測所述去噪報表圖像的直線組,并對所述去噪報表圖像的直線組進行直線補償。
可選地,所述根據所述圖像特征確定所述報表圖像的文本方向,包括:
將多個不同方向作為所述報表圖像的預設文本方向,識別所述報表圖像在所述多個不同方向的字符及其置信度;
根據所述圖像特征識別所述報表圖像中的文本類別;
對所述多個不同方向的字符中不屬于所述報表圖像的文本類別的字符的置信度按預設比例減??;
統計在各個多個文本方向上的累積置信度,確定累計置信度最大時對應的文本方向為所述報表圖像的文本方向。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110728172.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種并聯雙結構音圈電機
- 下一篇:一種提升多層板壓合品質的方法





