[發明專利]一種基于OCR的多票據自動識別方法及識別系統在審
| 申請號: | 201911192294.1 | 申請日: | 2019-11-28 |
| 公開(公告)號: | CN111008635A | 公開(公告)日: | 2020-04-14 |
| 發明(設計)人: | 章玨 | 申請(專利權)人: | 的盧技術有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06K9/22 |
| 代理公司: | 南京禹為知識產權代理事務所(特殊普通合伙) 32272 | 代理人: | 王曉東 |
| 地址: | 211103 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ocr 票據 自動識別 方法 識別 系統 | ||
本發明公開了一種基于OCR的多票據自動識別方法及識別系統,包括以下步驟,獲取OCR的票據樣本;圖像采集模塊采集待識別的票據圖像;所述票據圖像輸入圖像預處理模塊中處理得到次級圖像;去嘈雜模塊將所述次級圖像去嘈雜后獲得標準圖像;所述標準圖像輸入票據識別模塊內進行檢測完成識別。本發明的有益效果:提出的基于OCR的多票據自動識別方法,能夠減小識別一張圖像中帶有多張不同票據的存在的識別差異。
技術領域
本發明涉及文字識別的技術領域,尤其涉及一種基于OCR的多票據自動識別方法及一種基于OCR的多票據自動識別系統。
背景技術
近年來票據識別服務發展迅猛,但票據識別率仍相對較低,使得票據識別后還需票據錄入人員針對每個識別出的字段進行全面的人工核驗以糾正自動識別的錯誤信息。識別率較低、人工核驗過程相對比較耗時,使得票據識別服務的商業化利用率一直較低。
基于AI的智能財務報銷系統中,可以借助OCR等技術進行發票的自動識別,以減少報銷人員錄入工作量、報銷審核人員的審核工作量等,提升報銷自動化程度和報銷效率。長久以來,票據識別引擎沒有形成統一的規范,各識別引擎對外提供的服務API區別較大,無法相互兼容。盡管電子支付、電子票據等發展日益增多,傳統紙質票據仍然是現實工作和生活中廣泛使用的方式之一,如各類紙質發票、金融票據等。目前現有的票據識別針對不同類型的識別樣本,其文字的檢測和識別效果差異很大。
發明內容
本部分的目的在于概述本發明的實施例的一些方面以及簡要介紹一些較佳實施例。在本部分以及本申請的說明書摘要和發明名稱中可能會做些簡化或省略以避免使本部分、說明書摘要和發明名稱的目的模糊,而這種簡化或省略不能用于限制本發明的范圍。
鑒于上述現有存在的問題,提出了本發明。
因此,本發明解決的一個技術問題是:提出一種不同類型票據的識別方法,能夠在識別不同的樣本時保持較小的識別差異。
為解決上述技術問題,本發明提供如下技術方案:一種基于OCR的多票據自動識別方法,包括以下步驟,獲取OCR的票據樣本;圖像采集模塊采集待識別的票據圖像;所述票據圖像輸入圖像預處理模塊中處理得到次級圖像;去嘈雜模塊將所述次級圖像去嘈雜后獲得標準圖像;所述標準圖像輸入票據識別模塊內進行檢測完成識別。
作為本發明所述的基于OCR的多票據自動識別方法的一種優選方案,其中:所述圖像預處理模塊包括以下預處理步驟,將所述票據圖像旋轉或透視縮放;旋轉或透視縮放后將所述票據圖像中的文字沿水平垂直方向對齊;經對齊的圖像進行剪裁得到所述次級圖像。
作為本發明所述的基于OCR的多票據自動識別方法的一種優選方案,其中:所述去嘈雜模塊包括以下步驟,對所述次級圖像進行去色處理;調整所述次級圖像的直方圖信息;保留淺色區域中的淺色像素和深色區域中的深色像素;獲得高反差樣本的所述標準圖像。
作為本發明所述的基于OCR的多票據自動識別方法的一種優選方案,其中:所述票據識別模塊包括以下識別處理步驟,包含待識別字符的所述標準圖像進行分析結構;運用閾值對待測對象進行去噪和矯正;對文本信息做行列分割;將分割后的字符圖像導入識別模型中進行處理得到原圖中的字符信息。
作為本發明所述的基于OCR的多票據自動識別方法的一種優選方案,其中:所述識別模型采用CTPN算法模型,包括以下識別步驟,對復雜場景內橫排的文字分割成的不同單元塊檢測;加入豎直Anchor檢測豎直文字;利用雙向LSTM層學習圖像中的空間特征及序列特征;使用正則表達來查找票據圖像中的每個字符對應含義。
作為本發明所述的基于OCR的多票據自動識別方法的一種優選方案,其中:所述文字分割包括以下步驟,通過圖像非均勻分割方法對單個文字進行切割;利用函數得出每個字符的寬度,在多個近似分類中選出切分合適的一組;使用CNN算法模型對分類后這組字符進行識別辨認。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于的盧技術有限公司,未經的盧技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911192294.1/2.html,轉載請聲明來源鉆瓜專利網。





