[發明專利]文書檢索裝置無效
| 申請號: | 02105715.X | 申請日: | 2002-04-15 |
| 公開(公告)號: | CN1381799A | 公開(公告)日: | 2002-11-27 |
| 發明(設計)人: | 龜代泰三 | 申請(專利權)人: | 三菱電機株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國專利代理(香港)有限公司 | 代理人: | 劉宗杰,葉愷東 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文書 檢索 裝置 | ||
技術領域
本發明涉及電子保存并檢索·閱覽文書或圖面等圖像的文書檢索裝置,特別是涉及從通過識別記載在文書圖像或者圖面上的字符而生成·存儲的文書圖面數據,使用任意的關鍵字進行全文檢索的文書檢索裝置。
背景技術
為了把紙文書作為計算機可讀取的文書圖像進行電子登錄·保存,檢索·顯示,以往,有在文書登錄時,對于文書圖像人工添加關鍵字信息的方法,或者使OCR(光學文書讀取裝置)識別文書圖像中的字符,把所生成的文書文本與文書圖像一起保存的方法。
前者的方法在文書登錄時的關鍵字添加方面需要極多的勞力和時間。另一方面,后者的方法由于字符識別性能不完全因此不能避免誤識別,如果不修正通過字符識別得到的字符代碼,則在關鍵字檢索時具有作為檢索結果將發生不顯示所希望文書的「檢索遺落」,或者作為檢索結果顯示與檢索關鍵字不同的字符行的「檢索噪聲」這樣的問題。在用人工進行的誤識別的修正方面與前者的方法一樣需要極多的勞力。
解決后者方法的問題的方法之一,有即使存在字符分割錯誤·字符識別錯誤,也能夠降低「字符遺落」,實現高精度的字符檢索的方法(特開2000-057315號公報)。該方法是除去用字符行處理得到的字符代碼以外,從字符圖像生成·保持表現各字符形狀的特征量(形狀特征),在檢索時并用字符代碼與形狀特征進行對照的方法。
參照附圖說明以往的文書檢索裝置。圖18示出例如在特開2000-057315號公報中示出的以往的文書檢索裝置的結構。
圖18中,101是輸入裝置,102是控制裝置,103是字符識別裝置,104是特征生成裝置,105是顯示裝置,106是檢索裝置,107是特征對照判定裝置,108是檢索特征生成裝置,109是識別辭典,110是檢索數據存儲單元,111是形狀特征辭典。
下面,參照附圖說明以往的文書檢索裝置的動作。
首先說明文書登錄。圖19(a)是登錄的文書圖像,把字符識別裝置103識別了圖19(a)的結果示于圖19(b)中。
然后,特征生成裝置104生成識別了的各字符的形狀特征。形狀特征如圖20所示,通過抽取把各文書圖像8分割了的各區域中的字符外部輪廓部分的水平,垂直,右上,右下的各方向成分而生成。其結果示與圖21中。
然后,使用圖22,說明關鍵字「字符識別」與檢索數據[文宇識別」的對照處理。
檢索裝置106首先進行使用了字符代碼的對照。在圖22中,雖然輸入的關鍵字中的字符「文」「識」「別」與檢索數據一致,但是「字」不一致。
接著,檢索裝置106進行基于不一致的字符之間的形狀特征的對照。具體地講,進行不一致的關鍵字中的「字」的形狀特征122與輸出了檢索數據中的「宇」的識別結果的字符圖像的形狀特征123的對照。對于關鍵字中的字符「字」中的形狀特征,使用存儲在形狀特征辭典111中的標準圖形的特征值。
如果把字符代碼之間的距離記為C,把形狀特征之間的距離記為D,則用公式(1)表示關鍵字與檢索數據之間的距離。
?????????Dist=(∑D+∑C)/關鍵字字符數
????????????????????????????????????????????????公式(1)
其中,在Cij=α(α:常數)時,關鍵字的第i個字符與檢索數據的第j個字符的字符代碼不一致。在Cij=0時,關鍵字的第i個字符與檢索數據的第j個字符的字符代碼一致。
D[dic(i),img(j)]=∑∑|Fdic(k1)-Fimg(k1)|
????????????????????????????????????????????????公式(2)
式中,第1個∑的范圍是k=1~K,第2個∑的范圍是1=1~L。
這里,Fdic是存儲在形狀特征辭典111中的關鍵字的第i個字符的特征值,Fimg是檢索數據的第i個字符的特征值,K是方向成分數,L是每個方向成分的特征數。在滿足Dist<TH(TH:閾值)的情況下,視為字符行與關鍵字一致,輸出為檢索結果。
進行形狀特征對照的字符書在關鍵字與檢索數據不同的情況下,能夠通過使用動態設計法進行對照。由此,實現具有允許字符分割錯誤·字符識別錯誤的模糊性的對照。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三菱電機株式會社,未經三菱電機株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/02105715.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分散補償光纖的連接結構
- 下一篇:自由端紡紗機開松裝置的纖維條輸送裝置和方法





