[發明專利]字典檢索裝置無效
| 申請號: | 94104998.1 | 申請日: | 1994-04-29 |
| 公開(公告)號: | CN1095137C | 公開(公告)日: | 2002-11-27 |
| 發明(設計)人: | 西野文人;杉本尚美 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/00 | 分類號: | G06F17/00 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 | 代理人: | 范本國 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字典 檢索 裝置 | ||
本發明是關于一種字典檢索裝置,它用于以日文、中文、朝鮮文、英文等書寫的報告的各種處理。進一步說,本發明是關于這樣一種裝置,它使用該字典進行裝置進行形式元素(form?element)分析、不正確字符校正、字符標性化或后字行識別處理。
近些年,如字處理機、個人計算機、工作站之類計算機已廣泛推廣。人們希望使用計算機來進行各種處理,如報告的翻譯、檢索或分發。為進行翻譯之類處理,必須將報告存貯于計算機中,并參照字典對報告中的句子進行形式元素分析。
通常的形式元素分析是在假定輸入字符串被正確輸入計算機的前提下進行的。為了進行形式元素分析,報告中的句子必須是正確輸入的。
然而,在實際上,都經常輸入一個系統研制者所不希望的另一個字符串作為輸入字符串。
用日文寫的不正確輸入字符串和相應的正確輸入字符串的表示實例示于圖1。在圖1中每個字符串的發音表示在中。圖1的例1中,正確字符串“(ko)(n)(pi)(yu)(-)(ta)”的意思是“計算機”。在不正確的字符串中,使用了不正確的字符“減號”代夫了長元音符號“-”。在例2中,正確的字符串“(pa)(-)(Za)(-)”丟掉了第三個字符的發聲符號“Za”。在例3中正確的字符串“(doku)(sen)(jou)”的意思是“無與倫比的”。而在不正確的字符串“(doku)(dan)(jou)”中第二個漢字(漢字是一個中文字符)在外形上與正確的字符相似,但意思上不同。在上述實例中的三個錯誤都是由于使用了類似的字符。
在例4中正確的字符串和不正確的字符串有相同的發音“toma?to”和相同的含義“土豆”。不正確的字符串是用平假名(一種日文字母)輸入的而不是用片假名(另一種日文字母)正確輸入的。在這種情況下,不正確的字符串作為拼寫變體是一種允許的表示,然而計算機系統把它作為不正確字符串處理。
對于人而言,上述正確字符串和不正確字符串的差別是小差別。然而,如果在翻譯系統或其他類似系統中使用的詞典中只存貯了正確的詞,則會發生不能正確進行分析的問題。
在例5中,正確字符串和不正確字符串都表示一個日本姓氏,稱作“takizawa”。它們的發音和它們的含義都相同,只是新體字和舊體字之差。這些不同的字體用于報告的不同書寫環境,例如由不同的人寫的或由于使用了不同的假名—漢字轉換字典(即日文字—中文字轉換字典)。正確字符串是用新體字寫的,而不正確字符串是用舊體字寫的。如果舊體字(它們不符合標準)沒有登錄在一個系統字典中,這種不正確字符串便作為未登錄字輸出,于是在通常的形式元素分析中便不出現它的正確選擇物。
再有,通常的字符識別處理裝置,例如印刷字符閱讀器(reader)、手寫輸入字符閱讀器之類,對于每個閱讀字符輸出多個候選字符。當用字符識別處理裝置得到輸入字符時,一個字符識別后處理裝置“對于每個輸入字符接收多個候選字符,再利用候選字符的組合來檢索字典。如果一個長度為n的字符串中每個字符有m個候選字符,則字符識別后處理裝置要對mn個字符串組合檢索字典。于是,每個候選字符的數量增加,候選字符組合的數目增加,從而使字符識別后處理的速度變得緩慢。
為了提高字符識別后處理的速度,按通常的方式是試圖把每個字符位置的候選字符數目減少為m’個候選字符(m’<m))。然而,在試圖減少數目時,如果正確的字符被排除在這m’個候選字符之外,則不能檢索到正確的詞。
所以,本發明的一個目標是提供一個字典檢索裝置,它把由轉換字符定義表所規定的字符集的各元素看作為同一元素,從而對一個由于輸入錯誤迄今仍不能用以檢索字典的字能夠用以檢索字典。
本發明的另一目標是提供一個形式元素分布裝置,它使用上述能對一個迄今仍不能被用以檢索字典的字進行字典檢索的一個字典檢索裝置,從而允許有錯誤的輸入。
本發明的又一目標是提供一種字符串校正裝置,它使用上述能對一個迄今仍不能被用以檢索字典的字進行字典檢索的一個字典檢索裝置,從而能使字符標準化和改正錯誤。
本發明的又一目標是提供一種字符識別后處理裝置,通過減少在每個字符位置候選組的數目和減少候選字符組合數目,并通過對字符識別處理裝置輸出的在每個字符位置的候選字符進行分組,使該字符識別后處理裝置能提高其處理速度。
為達到上述目標,本發明構成了一個字典檢索裝置,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/94104998.1/2.html,轉載請聲明來源鉆瓜專利網。





