[其他]字符識別系統無效
| 申請號: | 86100220 | 申請日: | 1986-01-16 |
| 公開(公告)號: | CN1003257B | 公開(公告)日: | 1989-02-08 |
| 發明(設計)人: | 加藤真;曾根広尚;高橋弘晏 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 中國專利代理有限公司 | 代理人: | 許新根 |
| 地址: | 美國紐約*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字符 識別 系統 | ||
本發明涉及一種字符識別系統,具體地說,是一種能夠對手寫字符進行快速分類和鑒別處理的手寫字符識別系統。
輸入字符的快速分類和鑒別是利用硬件對每個輸入字符提取出許多不同類型的特征,并把這些特征和每個標準字符的特征進行比較來實現的。輸入字符和標準字符的諸特征是按各種特征類型加以檢驗的。而各類特征又包含多維特征分量(multidimensionalfeaturecomponents),具有相應維的同類特征分量順次地進行比較以檢驗其失配程度。逐次對同類型的相應維的特征分量進行比較,將其失配度即失配值累加起來,并把累加的結果和為該類特征參數確定的閾值進行比較。當累加的結果超過該閾值時,和當前標準字符的比較就在此刻停止,并跳過該字符去和下一個標準字符進行比較。因此,無須比較同類型的全部特征分量,從而提高了分類和鑒別的速度。
標準字符的特征參數根據字符的類別分組,并按字符以字符串的形式存儲在詞典存儲器中,而不屬于具體類別的,或者和其他字符組合使用的一個或幾個字符,例如無效字符,可定位在多個位置上。因此,被搜索的字符范圍能夠通過指示詞典存儲器的檢索起始位置和終止位置來規定,把無效字符作為標準字符來對待,使識別過程變得簡單。
未經審查的日本專利公告No.201184/83公開了一種手寫字符識別系統,該系統采用三種不同類型的特征參數,并按以下三個步驟來識別字符:即,初步分類Ⅰ;初步分類Ⅱ和鑒別階段。把用字符讀入器,例如光學字符閱讀器〔OCR〕,讀入的輸入字符二進制化,規格化和變細。通過掃描變細了的字符圖形提取出字符的特征。三種特征參數是:每個方向上字符線的數目;從字符圖形輪廓的四邊算起的實際字符線的深度以及在每個方向和每個位置上字符線的數目。在初步分類Ⅰ階段,通過把一輸入字符圖形中每個方向上的字符線的數目和標準字符圖形每個方向上的字符線的數目相比較進行分類。在初步分類Ⅱ階段,根據字符線的深度進行分類;在鑒別階段,根據在每個方向和每個位置上的字符線的數目進行鑒別,以選擇出一個或幾個最終的候選字符。
上述專利申請中所公開的技術,以較簡單的算法得到了高的識別精度。但是,總的說來,在識別包括漢字即中國字在內的手寫字符的時候,由于有特別大量的字符存在,因此用于分類和鑒別所需要的時間大大超過予處理,例如規格化和變細所需要的時間。在上述專利申請中,第一次縮小識別范圍是在初步分類Ⅰ這個步驟實現的;第二次縮小識別范圍是在初步分類Ⅱ這個步驟實現的。一個或幾個最終候選字符是在最后的步驟-鑒別階段實現的。因此達到了相當快速的處理。然而由于上述三種特征參數中的每一種都含有多維特征分量,而且在上述專利申請中,因為和相應類型的閾值的比較是在特征分量所有維的誤差即失配度總和已經得到的階段進行的,所以即使僅僅特征分量部分維的失配度總和就超過了該閥值,也不停止進行比較,因此在該現有技術中的這種方法是低效率和不經濟的。
而且,還存在一個問題,即:如果僅用軟件來處理的話,分類和鑒別處理是緩慢的。雖然,分類和鑒別能用硬件來實施,但需要大規模的硬件配置,且控制系統變得復雜,因為上述三種特征是用分別含有不同的運算的方程來表示的。
為了改善字符識別的精度和提高識別速度,通常用這樣的處理方法:根據輸入字符的種類,來規定將要用來比較的標準字符圖形的范圍,而那些規定種類之外的其他字符不再參加比較或被選作候選字符。慣用的字符類型選擇處理過程包括:
〔a〕將識別字符類型〔字母、數字和假名等〕的代碼標志在標準字符圖形上。只有具有規定代碼的標準字符圖形才被用來進行識別。
〔b〕對OCR文件的每一區域,以字符類型選擇表的形式,設立說明所采用字符類型的標志,并參照字符類型選擇表,對每一區域確定出用于進行識別的字符。
但是,在處理過程(a)中,在每個標準字符圖形里需要一附加位信息組,為了翻譯這個位信息組,需附加硬件設置,這樣由于要取出和翻譯這個位信息組,從而使得處理過程緩慢。另一方面,在過程(b)中,處理速度慢是因為一個漢字OCR至少需要2000字符×32區域=64000位(=8000字節),雖然,通常的字母數字-假名OCR只需要128字符×32信息組=4096位〔=512字節〕,但這不僅增加了硬件的負載,而且還需要對字符類型選擇表進行訪問,并用表對標準圖形進行訪問控制。
因此,本發明的一個目的在于提供一個能夠快速識別的字符識別系統。
本發明的另一個目的在于提供一個能夠快速處理的字符識別系統,在該系統中,用于識別的字符類型能靈活而方便地確定出來。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/86100220/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:管形帶式輸送機的扭曲檢測器和校正器
- 下一篇:磁帶錄像機的自動節目選擇器





