[發(fā)明專利]識別圖像塊中文字的方向的方法和裝置有效
| 申請?zhí)枺?/td> | 201110209833.5 | 申請日: | 2011-07-20 |
| 公開(公告)號: | CN102890784A | 公開(公告)日: | 2013-01-23 |
| 發(fā)明(設計)人: | 孫俊;直井聰 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20 |
| 代理公司: | 北京集佳知識產(chǎn)權代理有限公司 11227 | 代理人: | 杜誠;李春暉 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 圖像 文字 方向 方法 裝置 | ||
技術領域
本發(fā)明一般地涉及文檔圖像處理。具體而言,本發(fā)明涉及一種識別圖像塊中文字的方向的方法和裝置。
背景技術
當用戶使用掃描儀等設備對一疊文檔進行掃描時,理想的輸入是每個文檔的每一頁都以正向放置。以正向放置文檔時,用戶能夠輕松閱讀該文檔,掃描出的文檔圖像也無需用戶調整方向即可閱讀。然而,實際使用中,用戶要掃描的文檔往往是以正向0°、反向180°、橫向90°和270°交疊放置。如果用戶需要在掃描時對文檔的放置方向進行逐頁的檢查和調整,工作是繁重而耗時的。因此,掃描儀設計有自動文檔圖像方向判別的功能。基于自動文檔圖像方向判別功能,掃描得到的文檔圖像可以被調整為正向,從而減輕了用戶的負擔,提高了用戶的使用效率。
傳統(tǒng)的文檔圖像自動判別方法是:找到文檔圖像中的文本行,在4個可能的方向上分別做光學字符識別OCR(Optical?Character?Recognition)處理,得到4個可能方向上的識別字符及對應的置信度或識別距離,并計算文本行的平均置信度或平均識別距離。平均置信度最大或平均識別距離最小的方向被判別為文本行的方向。進而根據(jù)文本行的方向判斷文檔圖像的方向。文本行的方向是指文本行的正向,文檔圖像的方向是指文檔圖像的正向。下文中,文字(的)方向是指文字的正向。
發(fā)明內(nèi)容
在下文中給出了關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
如圖1所示,輸入文本行“TIP?AMOUNT”的圖像塊,設該方向為0°方向,將該文本行圖像塊旋轉180°得到180°方向的文本行圖像塊。由于90°和270°方向與0°和180°方向的處理類似,因此這里僅以0°和180°為例進行說明。分別對0°和180°上的文本行圖像塊進行OCR處理,得到如圖1中所示的兩個方向上的子圖像塊、子圖像塊對應的識別字符及其置信度。
采用傳統(tǒng)的方法,0°方向上識別字符的平均置信度=(0.59+0.36+0.53+0.61+0.61+0.61+0.53+0.72)/8=0.57,180°方向上識別字符的平均置信度=(0.62+0.58+0.65+0.67+0.60+0.46+0.50+0.58)/8=0.5825。由于0.57小于0.5825,傳統(tǒng)的方法會將180°方向(即平均置信度高的方向)錯誤地判斷為文本行圖像塊中文字的方向。
產(chǎn)生上述錯誤的原因之一是180°圖像是從0°圖像旋轉得到的,識別字符當中存在很多旋轉不變字符或者旋轉不變字符對,比如N、O、p-d、U-n。如果同一個圖像在正反兩個方向識別的結果是同一旋轉不變字符或者屬于同一旋轉不變字符對,實際上對應的識別置信度應該是一致的,因為正反兩個方向的識別結果都是同一形狀的正確的識別結果。在傳統(tǒng)的利用平均識別置信度來判斷文本行方向的方法中,由于沒有考慮到旋轉不變的特性,造成了一定的性能下降。
旋轉不變字符包括具有180°自旋轉對稱性的字符,即所述旋轉不變字符旋轉180°后是其本身,例如,“I”,“O”,“Z”,“N”,“$”,“%”,等等。
旋轉不變字符對包括兩個字符,且所述兩個字符中的任意一個旋轉180°后與另一個字符一致或具有形狀上的高相似度,例如,“W-M”,“U-n”,“P-d”,等等。
本發(fā)明的目的是針對上述問題,提出了一種能夠正確識別圖像塊中文字的方向的方法和裝置。該方案通過考慮旋轉不變特性并據(jù)此對識別字符對應的正確性度量(置信度或識別距離)進行調整,能夠提高自動文檔圖像方向判別的正確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110209833.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





