[發明專利]字符識別裝置和字符識別方法無效
| 申請號: | 201210276307.5 | 申請日: | 2012-08-03 |
| 公開(公告)號: | CN102982328A | 公開(公告)日: | 2013-03-20 |
| 發明(設計)人: | 佐田以知子 | 申請(專利權)人: | 夏普株式會社 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20 |
| 代理公司: | 北京尚誠知識產權代理有限公司 11322 | 代理人: | 龍淳 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字符 識別 裝置 方法 | ||
技術領域
本發明涉及從作為圖像被讀取的文件原稿中識別字符并將空白字符作為間隔、按單詞單位對字符識別結果的字符串進行校正的字符識別裝置和字符識別方法。
背景技術
提案有將印刷有利用文字處理機等制作成的字符的文件原稿數字化,使得能夠利用計算機等信息處理裝置對其進行處理的字符識別的技術。在字符識別技術中,利用圖像掃描器等讀入文件原稿,并對字符進行識別,將字符轉換為字母數字、平假名或漢字等字符代碼并保存。
而且,一般進行如下處理:對識別后的字符串進行語言處理式的分析處理,以校正字符的識別錯誤。作為該校正處理,基本上一般為如下方法:將與單詞辭典進行基于開頭一致的對照后結果為一致的辭典上的候選、或進行詞素分析等語言分析的結果是被評價為恰當的候選作為正確候選,對字符識別結果的字符串進行修正。
但是,在日語帳票(商務表格)的文件原稿等字符在規定的框內以一定間隔配置的文件原稿的情況下,即,在字符被均等分配的文件原稿的情況下,會將實際上不是單詞間隔的字符與字符之間的空白看做單詞間隔,因此不能順利地進行與單詞辭典的對照,不能充分地得到校正處理的效果。
作為解決該問題的技術,在日本特開平8-263587號公報中公開有以下的技術。即,公開有如下技術:檢測出從表示一行字符串的字符串圖像中切出的一個字符的圖像和與其相鄰的一個字符的圖像之間的空白,在該檢測出的空白大于規定的大小的情況下,判別為上述一個字符的圖像和與其相鄰的一個字符的圖像分別為屬于不同的單詞的字符,對于取入的文件的圖像中的規定區域內的字符串圖像,令上述的判別結果無效。
不僅在上述日語帳票的文件原稿的情況下,本來在包含適合于日文等的顯示和印刷的MS?Gothic等等倍字體的字符的文件原稿中也存在同樣的問題。具體而言,存在如下問題:等倍字體中字符寬度相對較窄的字符(“i”)等的前后的空白雖然不是單詞間隔的空白字符,但是也被識別為單詞間隔的空白字符,因此不能充分得到校正處理的效果。
在日本特開平8-263587號公報中,關于該問題沒有任何公開和暗示。
發明內容
本發明的目的在于提供一種字符識別裝置和字符識別方法,根據該字符識別裝置和字符識別方法,在包含以MS?Gothic等等倍字體構成的洋文(羅馬字)字符的圖像數據的字符識別之時,對在原稿中存在并被識別的本來的空白字符和在原稿中不存在而由于是字符寬度相對較窄的字符(“i”等)的前后所以被誤識別的空白字符進行判別,僅將后者的錯誤的空白字符刪除。
本發明的目的在于提供一種字符識別裝置,其特征在于:
其是從作為圖像被讀取的文件原稿中識別字符、并將空白字符作為間隔按單詞單位對字符識別結果的字符串進行校正的字符識別裝置,
上述字符識別裝置包括:
外切矩形形成部,其對各個被識別的字母字符串形成外切矩形;
等倍字體判定部,其根據相鄰的上述外切矩形的寬度方向中央線之間的距離,判定上述字符串的字體是否為等倍字體;
剩余空白字符判定部,其在判定為等倍字體的情況下,基于上述字符串中的空白字符的字符寬度比規定的寬度窄的情況,判定該空白字符是剩余空白字符;和
剩余空白字符刪除部,其從上述字符串中刪除被判定為上述剩余空白字符的空白字符。
本發明的另一目的在于提供一種字符識別裝置,其特征在于:
上述等倍字體判定部,以第一個上述外切矩形的寬度方向中央線與第二個上述外切矩形的寬度方向中央線之間的距離為基準值,在其它相鄰的上述外切矩形的寬度方向中央線之間的距離為基于上述基準值確定的規定的范圍內的情況下,判定上述字符串的字體為等倍字體。
本發明的另一目的在于提供一種字符識別裝置,其特征在于:
上述等倍字體判定部,取上述相鄰的外切矩形的寬度方向中央線之間的距離的柱狀圖,在該柱狀圖中存在中央化傾向的情況下,判定上述字符串的字體是等倍字體。
本發明的另一目的在于提供一種字符識別裝置,其特征在于:
上述等倍字體判定部基于上述字符串的一部分判定上述字符串的字體是否為等倍字體。
本發明的另一目的在于提供一種字符識別裝置,其特征在于:
上述等倍字體判定部,基于上述字符串中被判定為字符尺寸相等的部分,判定上述字符串的字體是否為等倍字體。
本發明的另一目的在于提供一種字符識別裝置,該字符識別裝置的特征在于:
上述規定的寬度基于上述外切矩形的寬度方向中央線之間的距離決定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于夏普株式會社,未經夏普株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210276307.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生物質燃料氣化熱水爐
- 下一篇:一種用于手持單元的吸附式懸掛裝置





