[發明專利]收據圖像處理方法和設備有效
| 申請號: | 201110270388.3 | 申請日: | 2011-08-31 |
| 公開(公告)號: | CN102968610A | 公開(公告)日: | 2013-03-13 |
| 發明(設計)人: | 常蘭蘭;孫俊;何源;于浩;直井聰 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G07D7/20 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王萍;李春暉 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 收據 圖像 處理 方法 設備 | ||
技術領域
本申請總體上涉及圖像處理的領域,更具體而言,涉及一種收據圖像處理方法和設備。
背景技術
收據是一種常用的金融票據。在實際應用中,經常通過掃描儀等圖像捕獲設備來捕獲收據圖像,然后對捕獲的收據圖像進行內容分析以獲得相關信息。但是,對收據圖像進行內容分析常常存在很多困難,例如,在收據圖像中,收據的長度通常根據其中記錄項的多少而變化,即收據圖像中包含的文本行的行數根據其中記錄項的多少而變化,一般一個記錄項對應一類物品,并且一個記錄項通常包含若干文本行,每個文本行分別描述該類物品的相關信息,例如金額、識別碼、折扣等;又例如,在收據圖像中,收據的抬頭通常是開具該收據的公司的標識,該標識一般難以準確切割并且難以通過OCR技術來準確識別。因此,現有技術中進行內容分析的可靠性和準確性較差。
發明內容
在下文中將給出關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
根據本申請的實施例,提供了一種收據圖像處理方法,該方法可包括:根據金額的特征信息檢測收據圖像中表示金額的金額數字;根據金額數字來識別收據圖像中包含金額數字的特征行;以及基于所述特征行的位置分布,分別將所述收據圖像中的各個文本行分組到彼此之間相似的若干重復塊中。這樣,通過將收據圖像中的文本行分組到彼此之間相似的重復塊中,可以以重復塊為單元對收據圖像進行內容分析,從而顯著提高收據圖像的內容分析的可靠性和準確性。
根據本申請的實施例,檢測步驟可包括:將收據圖像切分成行和詞;在各個文本行的右對齊位置搜索最后兩位或倒數第二、三位字符為兩個連續數字的十進制數字;以及根據十進制數字與之前字符或詞之間的距離,以及之前字符或詞本身的屬性,來確定金額數字。
根據本發明的實施例,識別步驟包括:以已經被識別出的特征行為參照,計算收據圖像中的各個文本行與已經被識別出的特征行之間的第一相似度;以及將第一相似度大于預定閾值的文本行也識別為特征行。
根據本發明的實施例,分組步驟包括:分別以特征行為邊界,將特征行以及位于特征行與其之后最鄰近的特征行之間的各個文本行,分組到同一重復塊中。
根據本發明的實施例,分別計算重復塊中除特征行以外的各個文本行與其它重復塊中除特征行以外的各個文本行之間的第二相似度;將第二相似度大于預定閾值的文本行作為重復模式;以及將具有最多重復模式的重復塊作為代表重復塊。
根據本申請的實施例,提供了一種收據圖像處理設備,該設備可包括:檢測裝置,用于根據金額的特征信息檢測收據圖像中表示金額的金額數字;識別裝置,用于根據金額數字來識別收據圖像中包含金額數字的特征行;以及分組裝置,用于基于所述特征行的位置分布,分別將所述收據圖像中的各個文本行分組到彼此之間相似的若干重復塊中。這樣,通過分組裝置將收據圖像中的文本行分組到彼此之間相似的重復塊中,可以以重復塊為單元對收據圖像進行內容分析,從而顯著提高收據圖像的內容分析的可靠性和準確性。
附圖說明
本發明可以通過參考下文中結合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本發明的優選實施例和解釋本發明的原理和優點。在附圖中:
圖1示出根據本發明的一個實施例的收據圖像處理方法的處理的流程圖;
圖2示出根據本發明的一個實施例的檢測收據圖像中的金額數字的處理的流程圖;
圖3是示出從收據圖像中檢測到的金額數字的示意圖;
圖4是示出收據圖像中的文本行的詞屬性串的示意圖;
圖5示出根據本發明的一個實施例的校正收據圖像中的特征行的處理的流程圖;
圖6是示出特征行與文本行之間的第一相似度的示意圖;
圖7是示出利用金額數字的位置信息驗證第一相似度的示意圖;
圖8示出根據本發明的一個實施例的確定代表重復塊的處理的流程圖;
圖9是示出從收據圖像中識別的特征行的示意圖;
圖10是示出對收據圖像中的文本行進行分組而得到的重復塊的示意圖;
圖11A示出根據發明的一個實施例的對數據圖像進行劃分并利用重復塊對收據圖像進行聚類的處理的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110270388.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種微源并網電能質量控制系統
- 下一篇:高壓晶閘管控制型動態無功補償控制系統
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





