[發明專利]一種針對電子文檔的圖像識別方法、裝置及存儲設備有效
| 申請號: | 201911075895.4 | 申請日: | 2019-11-06 |
| 公開(公告)號: | CN110826488B | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 李程 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/148;G06V30/18;G06V30/19 |
| 代理公司: | 北京樂知新創知識產權代理事務所(普通合伙) 11734 | 代理人: | 江宇 |
| 地址: | 215000 江蘇省蘇州市中國(江蘇)自由貿*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 電子 文檔 圖像 識別 方法 裝置 存儲 設備 | ||
本發明公開了一種針對電子文檔的圖像識別方法、裝置及計算機存儲設備,首先對文檔頁面圖像進行塊分割,得到多個頁面圖像塊;接著分別對所述多個頁面圖像塊進行特征提取,得到對應的多個特征向量;進一步根據所述多個特征向量進行標注數據采樣;再根據所述多個特征向量和采樣得到的標注數據進行模型訓練,得到預測模型;最后利用所述預測模型對所述多個頁面圖像塊進行圖像識別,得到目標預測圖像。
技術領域
本發明涉及電子文檔應用技術,尤其涉及一種針對電子文檔的圖像識別方法、裝置及計算機存儲設備。
背景技術
隨著計算機與網絡技術的迅速發展,電子文檔的應用越來越廣泛,特別是PDF等格式的版式文檔。目前,針對文檔頁面進行圖像識別的方式主要包括基于XY樹的全局遞歸切割算法和基于深度學習的物體檢測算法。
然而,當前針對文檔頁面進行圖像識別的以上方式存在如下種種缺陷:1)基于XY樹的全局遞歸切割算法對于特定的版式(如表格,分割線)無法進行有效切割;2)主要根據投影的空白間隔進行分割,而以多大的間隔作為分割閾值全靠經驗,因此塊分割準確率低,且并未解決圖像識別的問題;3)基于深度學習的物體檢測算法(如YOLO算法)需要大量的訓練數據,標注數據缺乏,且計算成本高昂。
發明內容
本發明實施例為了有效克服現有的針對文檔頁面進行圖像識別所存在的種種問題,創造性地提供一種針對電子文檔的圖像識別方法、裝置及計算機存儲設備。
根據本發明實施例第一方面,提供一種針對電子文檔的圖像識別方法,該方法包括:對文檔頁面圖像進行塊分割,得到多個頁面圖像塊;分別對所述多個頁面圖像塊進行特征提取,得到對應的多個特征向量;根據所述多個特征向量進行標注數據采樣;根據所述多個特征向量和采樣得到的標注數據進行模型訓練,得到預測模型;利用所述預測模型對所述多個頁面圖像塊進行圖像識別,得到目標預測圖像。
根據本發明一實施方式,所述對文檔頁面圖像進行塊分割,得到多個頁面圖像塊,包括:第一操作,獲取文檔頁面圖像的兩個投影數組,所述兩個投影數組分別包括所述文檔頁面圖像在X軸和Y軸上的投影值;第二操作,對所述兩個投影數組進行預處理;第三操作,根據預處理后的兩個投影數組中間的空白位置對所述文檔頁面圖像進行塊分割,得到一次分割后的多個頁面圖像塊。
根據本發明一實施方式,所述根據預處理后的兩個投影數組中間的空白位置對所述文檔頁面圖像進行塊分割,包括:檢測所述預處理后的兩個投影數組中間是否存在空白;若存在空白,則據預處理后的兩個投影數組中間的空白位置對所述文檔頁面圖像進行塊分割;若不存在空白,則結束塊分割流程。
根據本發明一實施方式,所述對文檔頁面圖像進行塊分割,得到多個頁面圖像塊,還包括:針對所述多個頁面圖像塊中每一個頁面圖像塊重復第一操作至第三操作,以得到多個N次分割后的頁面圖像塊,N的取值為大于1的正整數。
根據本發明一實施方式,所述對所述兩個投影數組進行預處理,包括:確定每個投影數組中所有數組元素的一個眾數;在所述投影數組中每個數組元素對應值上減去所述眾數;若存在減去所述眾值后的數組元素對應值為負值,則將所述數組元素對應值記為零。
根據本發明一實施方式,所述分別對所述多個頁面圖像塊進行特征提取,得到對應的多個特征向量,包括:針對所述多個頁面圖像塊中每一個頁面圖像塊進行特征提取,得到所述頁面圖像塊的長、寬及在所述文檔頁面圖像中的位置坐標;將所述頁面圖像塊的長、寬及在所述文檔頁面圖像中的位置坐標確定為對應的特征向量。
根據本發明實施例第二方面,還提供一種針對電子文檔的圖像識別裝置,所述裝置包括:塊分割模塊,用于對文檔頁面圖像進行塊分割,得到多個頁面圖像塊;特征提取模塊,用于分別對所述多個頁面圖像塊進行特征提取,得到對應的多個特征向量;采樣模塊,用于根據所述多個向量進行標注數據采樣;訓練模塊,用于根據所述多個特征向量和采樣得到的標注數據進行模型訓練,得到預測模型;預測識別模塊,用于利用所述預測模型對所述多個頁面圖像塊進行圖像識別,得到目標預測圖像。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911075895.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多功能鏟板式重型搬運車
- 下一篇:地板清潔機
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





