[發(fā)明專利]字符串識別裝置、字符串識別方法及其存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 02102353.0 | 申請日: | 2002-01-23 |
| 公開(公告)號: | CN1367460A | 公開(公告)日: | 2002-09-04 |
| 發(fā)明(設(shè)計(jì))人: | 堀田悅伸;藤本克仁;直井聰;諏房美佐子 | 申請(專利權(quán))人: | 富士通株式會社 |
| 主分類號: | G06K9/72 | 分類號: | G06K9/72 |
| 代理公司: | 中國國際貿(mào)易促進(jìn)委員會專利商標(biāo)事務(wù)所 | 代理人: | 馮賡宣 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 字符串 識別 裝置 方法 及其 存儲 介質(zhì) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及與字符識別裝置OCR和軟件OCR相關(guān)聯(lián)的字符識別裝置中的字符串識別裝置,而字符識別裝置OCR和軟件OCR是近來人們越來越需要的一種文件輸入工具。
背景技術(shù)
作為通過把手寫字符串分解成若干個部分字符串來識別一個詞的方法,已有一種建議用于識別一個區(qū)域中的詞,該區(qū)域由由被檢測出作為定界符的那些字(關(guān)鍵字)包圍,例如手寫地址中的都(首都)、道、府、縣(省)、市(市)、區(qū)(區(qū))、郡(縣)等(例如,日本專利出版物11-161740號、日本專利出版物11-328315號)。
然而,上面提到的方法是用于手寫地址的,尚未開發(fā)出用于一般手寫字符串而不僅僅是地址的字符串識別方法。在一個地址中,每個關(guān)鍵字可用作字符串的定界符,尚沒有使用多個字作為關(guān)鍵字,即作為關(guān)鍵詞。
在用于識別手寫地址的傳統(tǒng)的關(guān)鍵字提取系統(tǒng)中,關(guān)鍵字限于都(首都)、道(省)、府(省)、縣(省)、市(市)、區(qū)(區(qū))、郡(縣)、町(鎮(zhèn))、村(村)。然而,當(dāng)目標(biāo)字符串不是一個地址時(shí),就必須在每次進(jìn)行字符串識別過程時(shí)重新設(shè)置關(guān)鍵字。
再有,由于在傳統(tǒng)方法中要從一個字符串中提取的關(guān)鍵字個數(shù)是1,所以如果按原樣應(yīng)用傳統(tǒng)方法的話,便不能成功地提取含有兩個或更多字符的關(guān)鍵詞,這是由于例如關(guān)鍵詞中的毗鄰字造成的。
此外,在傳統(tǒng)的詞識別方法中,尚不能進(jìn)行高精確性拒絕處理,一個詞可能作為完全錯誤的詞被誤識別,從而使用戶失望。
發(fā)明內(nèi)容
已開發(fā)出本發(fā)明以解決上述傳統(tǒng)技術(shù)中存在的問題,其目的在于提供一種字符串識別裝置,它能從字符串中自動提取關(guān)鍵詞,即使關(guān)鍵詞中包括多個字符也能以高精確性提取該關(guān)鍵詞,而且能防止一個要識別的詞被誤認(rèn)為是一個完全不同的詞。
根據(jù)本發(fā)明構(gòu)成的字符串識別裝置包括一個識別目標(biāo)字符串組存儲單元,用于存儲要識別的一類中的字符串列表;以及一個關(guān)鍵詞確定單元,用于對每個字檢索(search)識別目標(biāo)字符串組存儲單元以得到每個字的發(fā)生次數(shù),確定發(fā)生次數(shù)多的字作為關(guān)鍵字,并確定發(fā)生次數(shù)多的字符串作為關(guān)鍵詞。
由于能根據(jù)要識別的類別自動確定關(guān)鍵字和關(guān)鍵詞,所以操作員等人不必依次設(shè)置關(guān)鍵字和關(guān)鍵詞。
再有,根據(jù)本發(fā)明構(gòu)成的字符串識別裝置還包括一個關(guān)鍵字/詞存儲單元,用于存儲被確定的關(guān)鍵字或關(guān)鍵詞;以及一個關(guān)鍵字/詞提取單元,用于如果當(dāng)從要識別的字符串中提取出一個存儲在關(guān)鍵字/詞存儲單元中存儲的關(guān)鍵字或關(guān)鍵詞時(shí),該關(guān)鍵詞中的一部分字符串被提取出來的話,提取一個字符串作為關(guān)鍵詞。
這樣,當(dāng)從要識別的字符串中提取關(guān)鍵詞時(shí),即使由于字彼此接觸等原因不能識別出該關(guān)鍵詞中的各字,也能提取出該關(guān)鍵詞。
再有,根據(jù)本發(fā)明構(gòu)成的字符串識別裝置還包括一個詞識別單元用于識別詞,以及一個校驗(yàn)單元用于檢驗(yàn)詞識別單元的識別結(jié)果是否正確。
例如,上述校驗(yàn)單元根據(jù)線密度或周邊分布來校驗(yàn)識別結(jié)果。
這樣,通過校驗(yàn)詞識別結(jié)果并且如果該詞被誤識別的話則拒絕該詞識別結(jié)果,從而能向用戶提供高精確性識別結(jié)果。
附圖說明
圖1顯示本發(fā)明示意圖;
圖2顯示根據(jù)本發(fā)明一個實(shí)施例的字符串識別裝置總體構(gòu)成的示意圖;
圖3顯示自動關(guān)鍵字代碼提取過程和關(guān)鍵字/關(guān)鍵詞提取過程的實(shí)施例;
圖4A、4B和4C顯示要識別的字符組以及提取出的字和字符串的示例;
圖5是單個字分段過程以及字識別和關(guān)鍵詞提取過程的流程圖;
圖6顯示分段為單個字的一個字被識別為一個詞的情況;
圖7顯示通過線密度周邊分布進(jìn)行校驗(yàn)的過程;
圖8是通過線密度/周邊分布進(jìn)行校驗(yàn)的過程的解釋圖;
圖9顯示一個信息處理裝置的硬件配置;以及
圖10顯示存儲介質(zhì)一個示例。
具體實(shí)施方式
根據(jù)本發(fā)明要處理的手寫字符串可以是按正常排列書寫的各種字符串,如地址、名字、大學(xué)的名稱、銀行的名字等。在本發(fā)明中,不是從一字符串的起點(diǎn)開始逐個地識別字,而是把一個字符串分成多個部分字符串,并綜合識別每個部分字符串中包含的詞。這樣,字彼此接觸和字被分離等手寫字符串的問題能被正確地處理。根據(jù)本發(fā)明構(gòu)成的字符識別裝置不僅能應(yīng)用于上述手寫字識別裝置,而且能應(yīng)用于通用的字符識別裝置,如印刷字符識別裝置、便攜信息終端中使用的字符識別裝置等。
圖1顯示本發(fā)明的示意圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/02102353.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:實(shí)施金融交易的方法
- 下一篇:生產(chǎn)一種短纖維紗的方法
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





