[發明專利]一種基于內容的圖像格式中文文檔檢索方法無效
| 申請號: | 201010226787.5 | 申請日: | 2010-07-15 |
| 公開(公告)號: | CN101866366A | 公開(公告)日: | 2010-10-20 |
| 發明(設計)人: | 夏勇;王寬全;左旺孟;黎捷 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/46 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 內容 圖像格式 中文 文檔 檢索 方法 | ||
技術領域
本發明涉及信息處理技術領域,具體涉及一種基于內容的圖像格式中文文檔檢索方法。
背景技術
紙質文檔的數字化存儲與檢索對于信息的獲取和辦公自動化領域有著深遠的意義。對于數據存儲而言,一般采用掃描儀或數碼相機先將紙質文檔轉換為圖像格式進行保存,即將紙質文檔轉換為圖像格式文檔,兩個圖像格式文檔示例如圖1所示。如何對大規模圖像格式文檔數據集進行檢索是一個非常具有挑戰性的問題,也是最近幾年研究領域的一個熱點。
對于圖像格式文檔的檢索而言,一般都是利用目前較為成熟的OCR技術,將文檔電子化,即轉換為ASCII文本。由于OCR會存在識別錯誤,且會丟失版面的一些原始信息,所以一般利用OCR的文本進行檢索,而檢索的結果為圖像格式的掃描文檔的內容。由于OCR會存在識別錯誤,特別是對于退化文檔,識別率很低,此時檢索性能會很差。盡管有一些克服OCR識別錯誤的方法,如識別后處理,提供候選字等,但效果仍然很有限。鑒于目前的研究現狀,對退化字符的識別難以在短期內有很大的突破,如何解決低識別率文檔的檢索就成為了一個非常有意義,也非常有挑戰性的問題。
發明內容
為了解決現有的基于OCR技術的檢索方法不能有效處理字符退化嚴重的圖像格式文檔的問題,本發明提供了一種基于內容的圖像格式中文文檔檢索方法。
本發明的一種基于內容的圖像格式中文文檔檢索方法,它包括以下步驟:
步驟一:獲取待檢索的圖像格式中文文檔,并對每個圖像格式中文文檔進行字符分割,進而獲取每個圖像格式中文文檔中的單個字符圖像;
步驟二:根據所獲取的單個字符圖像,提取該字符圖像的字符圖像特征矢量;
步驟三:基于局部敏感哈希變換原理,構建hash函數h,并將所提取的字符圖像的字符圖像特征矢量相應變換為偽碼,并根據所述偽碼建立字符標引數據庫,所述偽碼由L個16位整數串接而成,其中,,,的值由hash函數h和參數k決定;
步驟四:在所述字符標引數據庫中輸入查詢關鍵詞,所述查詢關鍵詞的格式為文本格式或圖像格式,判斷所述查詢關鍵詞是否為文本格式,如果是,執行步驟五,否則執行步驟六;
步驟五:設置文本格式的查詢關鍵詞的字體和字號,并將所述查詢關鍵詞由文本格式轉換為圖像格式;
步驟六:對圖像格式的查詢關鍵詞W進行字符分割,進而獲取所述查詢關鍵詞W的所有字符圖像,即,為所述查詢關鍵詞W中一個字符圖像,,并根據所述字符圖像提取其字符圖像特征矢量;
步驟七:基于局部敏感哈希變換原理,將字符圖像的字符圖像特征矢量變換為偽碼,所述偽碼由L個16位整數串接而成;
步驟八:令i=1,j=1;
步驟九:獲取字符圖像的偽碼與字符標引數據庫中字符圖像的偽碼之間的字符相似度S=M/L,其中,M為所述兩個偽碼之間屬性相等的個數;
步驟十:判斷所獲取的字符相似度S是否小于相似度閾值1/L,如果是,則執行步驟十四,否則,執行步驟十一;
步驟十一:判定字符圖像與字符標引數據庫中字符圖像相似,將所述字符圖像及步驟九獲取的字符相似度S保存;
步驟十二:判斷是否存在i=n,如果是,則令i=1,執行步驟十三,否則令i=i+1,執行步驟十四;
步驟十三:將步驟十一所存儲的與之間的n個字符組成的詞作為有效查詢結果保存,并將步驟十一所存儲的n個字符相似度S相乘作為所述詞相似度保存,然后執行步驟十四;
步驟十四:判斷是否存在j<N,如果是,則令j=j+1,返回執行步驟九,否則執行步驟十五;
步驟十五:將步驟十三所保存的有效查詢結果按照其在文檔中出現的先后順序輸出,完成檢索。
本發明的有益效果:本發明的一種基于內容的圖像格式中文文檔檢索方法完全拋棄OCR技術,避免了復雜的OCR算法的設計、樣本訓練等過程,直接利用字符圖像的特征,并基于圖像間的相似性進行檢索,能夠有效處理字符退化嚴重的圖像格式文檔;本發明的檢索方法簡單,速度快,成本低廉;本發明的檢索方法具有線性的查找速度,有效的緩解了基于內容檢索方法中存在的特征維數過高而導致的維數災難問題。
?附圖說明
圖1和圖2是本發明的一種基于內容的圖像格式中文文檔檢索方法流程圖,圖3是用掃描儀掃描獲得的圖像格式文檔,圖4是用數碼相機拍攝獲得的圖像格式文檔,圖5是本發明具體實施方式四中,查詢關鍵詞為文本格式時圖像格式中文文檔的檢索流程示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010226787.5/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





