[發明專利]基于掩膜的圖像表格文檔識別方法無效
| 申請號: | 201310145105.1 | 申請日: | 2013-04-25 |
| 公開(公告)號: | CN104123527A | 公開(公告)日: | 2014-10-29 |
| 發明(設計)人: | 魏昊;張磊 | 申請(專利權)人: | 魏昊;張磊 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 王清義 |
| 地址: | 江蘇省南京市白下區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 圖像 表格 文檔 識別 方法 | ||
技術領域
本發明涉及一種版式文檔圖像表格識別方法,尤其涉及一種基于掩膜的圖像表格文檔識別方法。
背景技術
現有的圖像表格文檔識別都是基于整個版面分析后做識別。這些方案都是以OCR/ICR引擎為核心。對文檔整個版面按照“基于連通區域的版面分割算法”或者是“膨脹版面分析算法”進行版面分析后逐條對識別字符進行識別。但對整體的識別效率和準確率,特別是對有統一樣式圖像超高識別率要求的特別域-即有效識別率及效率,沒有做考慮和設計。同時,由于OCR/ICR的效率問題,往往處理速度較慢,無法應對高時效的要求。
發明內容
本發明所要解決的技術問題是針對上述現有技術的不足,提供一種識別準確性高、識別效率高的基于掩膜的圖像表格文檔識別方法。
為實現上述技術目的,本發明采取的技術方案為:一種基于掩膜的圖像表格文檔識別方法,包括以下步驟:
第一步,表格文檔圖像預處理:采用權平均法對表格文檔圖像進行灰度化處理,然后采用最大類間方差方法對表格文檔圖像進行二值化處理,以對表格線進行糾偏,形成預處理表格文檔圖像;?
第二步,表格文檔圖像掩膜制作:首先,掃描并且識別預處理表格文檔圖像,并對掃描的預處理表格文檔圖像結果進行二值化,以完成糾偏和去噪;然后,用圖像工具去除預處理表格文檔圖像的單元格內的具體內容,只保留版面分隔的表格線信息,制作成表格文檔圖像掩膜;所述表格文檔圖像掩膜用于和表格文檔圖像進行試匹配,以驗證掩膜的準確性;
第三步,針對不同的表格文檔圖像,重復上述第一步和第二步,制作成表格文檔圖像掩膜庫;
第四步,掩膜匹配:首先,針對現實中包含數據的表格文檔圖像,采用第一步的方法進行處理,形成預處理表格文檔圖像;其次,對預處理表格文檔圖像進行掩膜匹配:1)根據預處理表格文檔圖像不同的特征對預處理表格文檔圖像加以區分和分類;2)然后,將表格文檔圖像掩膜庫中的各個表格文檔圖像掩膜依次與預處理表格文檔圖像通過Hausdorff算法進行覆蓋匹配,形成添加了掩膜的預處理表格文檔圖像;3)再將添加了掩膜的預處理表格文檔圖像進行保存并且傳遞給下一步進行處理;
第五步,局部表格文檔圖片分割識別:首先,對于已經完成掩膜匹配的預處理表格文檔圖像,根據匹配的表格文檔圖像掩膜的坐標信息對被掩膜成功覆蓋的預處理文檔進行局部定位,所述坐標信息中包含每個單元格的4個坐標點信息;所述局部定位是指根據表格文檔圖像掩膜中的各個單元格的坐標信息鎖定目標文檔的內容;其次,在局部圖像信息鎖定后進行切碎處理,形成微小圖像;所述微小圖像的大小取決于單元格內的具體內容的大小;然后,進一步對切碎的微小圖像進行內容識別。
作為本發明進一步改進的技術方案,所述文檔圖像與處理包括以下步驟:1)文檔圖像的二值化:用于將表格文檔圖像處理成黑和白兩種顏色;2)對文檔圖像的水平線識別處理:用于定位表格文檔圖像中表格的所有水平線的坐標位置;3)對文檔圖像的垂直線識別處理:定位表格文檔圖像中表格的所有垂直的坐標位置;4)對文檔圖像的垂直線糾偏處理:用于還原表格文檔圖像真實的形狀;5)對文檔圖像水平線糾偏處理:用于還原表格文檔圖像真實的形狀;
作為本發明進一步改進的技術方案,Hausdorff?最小距離算法的表達式為:????????????????????????????????????????????????這里,,其中A和B為兩組點集,及集合A={a1,…,ap},集合B={b1,…,bq},H(A,B)?兩組點集之間距離的一種定義形式,用于描述兩組點集之間相似程度的一種量度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于魏昊;張磊,未經魏昊;張磊許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310145105.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種葡萄酒發酵罐
- 下一篇:一種高水分高甘油皂粒的生產裝置
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





