[發明專利]一種檢測字符片段完整性的方法及終端有效
| 申請號: | 201910247364.2 | 申請日: | 2019-03-29 |
| 公開(公告)號: | CN110008960B | 公開(公告)日: | 2022-01-04 |
| 發明(設計)人: | 郝占龍;林玉玲;陳文傳;杜保發;莊國金 | 申請(專利權)人: | 廈門商集網絡科技有限責任公司 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148 |
| 代理公司: | 福州科揚專利事務所(普通合伙) 35001 | 代理人: | 何小星 |
| 地址: | 361101 福建省廈*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢測 字符 片段 完整性 方法 終端 | ||
本發明涉及一種檢測字符片段完整性的方法及終端,屬于數據處理領域。本發明通過獲取字符片段在圖像中的第一坐標信息;根據所述第一坐標信息計算得到第二坐標信息,以使所述第二坐標信息對應的區域范圍大于所述第一坐標信息對應的區域范圍;根據預設的目標檢測算法檢測與所述第二坐標信息對應的區域范圍內的單字符,得到單字符的坐標信息;根據一所述單字符的坐標信息統計一單字符的像素點個數,得到第一像素點個數;統計在所述第一坐標信息對應的區域范圍內,與所述一單字符對應的像素點個數,得到第二像素點個數;若所述第二像素點個數與所述第一像素點個數的比值大于預設的閾值,則標記所述一單字符的信息完整。實現提高OCR識別的準確度。
技術領域
本發明涉及一種檢測字符片段完整性的方法及終端,屬于數據處理領域。
背景技術
隨著科學技術的發展,以及電子化的需求,越來越多的光學圖像需要進行文本識別錄入計算機中。在財稅、經濟偵查等領域,工作人員需要花費大量時間仔細錄入票據信息,并且繁瑣重復的錄入工作極易出現錯誤,為了減少工作人員的繁瑣錄入工作和錯誤的發生,基于OCR識別的錄入算法變得越來越重要。
雖然目前很多OCR識別準確率很高,甚至準確率可達99%,但是在稅務等領域,這樣的錯誤量是無法容忍的,錯誤發生點的不確定,使得OCR無法預先得知會在什么位置識別錯誤,識別完成后并不知道所識別的結果是否是真實值。為了達到高于99.95%的精度要求,不得不使用人工進行二次、甚至三次的信息錄入核對工作。
發明內容
本發明所要解決的技術問題是:如何提高OCR識別的準確度。
為了解決上述技術問題,本發明采用的技術方案為:
一種檢測字符完整性的方法,包括:
獲取字符片段在圖像中的坐標信息,得到第一坐標信息;所述坐標信息包括所述字符片段的四個頂點坐標;
根據所述第一坐標信息計算得到第二坐標信息,以使所述第二坐標信息對應的區域范圍大于所述第一坐標信息對應的區域范圍;
根據預設的目標檢測算法檢測與所述第二坐標信息對應的區域范圍內的單字符,得到單字符的坐標信息;
根據一所述單字符的坐標信息統計一單字符的像素點個數,得到第一像素點個數;
統計在所述第一坐標信息對應的區域范圍內,與所述一單字符對應的像素點個數,得到第二像素點個數;
若所述第二像素點個數與所述第一像素點個數的比值大于預設的閾值,則標記所述一單字符的信息完整。
優選地,根據所述第一坐標信息計算得到第二坐標信息,以使所述第二坐標信息對應的區域范圍大于所述第一坐標信息對應的區域范圍,具體為:
獲取預設的寬度;
所述第一坐標信息中的四個頂點坐標圍成一矩形,得到第一矩形;
將所述第一矩形的兩側分別擴展一所述預設的寬度,得到第二矩形;
所述第二坐標信息包括所述第二矩形的四個頂點坐標。
優選地,獲取預設的寬度,具體為:
獲取與所述字符片段對應的字符類型;
獲取與所述字符類型對應的寬度,得到所述預設的寬度。
優選地,還包括:
獲取所述第一坐標信息范圍內,包含所述一單字符所有像素點的最小矩形的四個頂點坐標,得到第三坐標信息;
發送所述第三坐標信息至OCR識別引擎,以使所述OCR識別引擎識別所述圖像中與所述第三坐標信息對應的區域。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門商集網絡科技有限責任公司,未經廈門商集網絡科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910247364.2/2.html,轉載請聲明來源鉆瓜專利網。





