[發明專利]一種基于內容的圖像格式中文文檔檢索方法無效
| 申請號: | 201010226787.5 | 申請日: | 2010-07-15 |
| 公開(公告)號: | CN101866366A | 公開(公告)日: | 2010-10-20 |
| 發明(設計)人: | 夏勇;王寬全;左旺孟;黎捷 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/46 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 內容 圖像格式 中文 文檔 檢索 方法 | ||
1.一種基于內容的圖像格式中文文檔檢索方法,其特征在于所述檢索方法包括以下步驟:
步驟一:獲取待檢索的圖像格式中文文檔,并對每個圖像格式中文文檔進行字符分割,進而獲取每個圖像格式中文文檔中的單個字符圖像;
步驟二:根據所獲取的單個字符圖像,提取該字符圖像的字符圖像特征矢量;
步驟三:基于局部敏感哈希變換原理,構建hash函數h,并將所提取的字符圖像的字符圖像特征矢量相應變換為偽碼,并根據所述偽碼建立字符標引數據庫,所述偽碼由L個16位整數串接而成,其中,,,的值由hash函數h和參數k決定;
步驟四:在所述字符標引數據庫中輸入查詢關鍵詞,所述查詢關鍵詞的格式為文本格式或圖像格式,判斷所述查詢關鍵詞是否為文本格式,如果是,執行步驟五,否則執行步驟六;
步驟五:設置文本格式的查詢關鍵詞的字體和字號,并將所述查詢關鍵詞由文本格式轉換為圖像格式;
步驟六:對圖像格式的查詢關鍵詞W進行字符分割,進而獲取所述查詢關鍵詞W的所有字符圖像,即,為所述查詢關鍵詞W中一個字符圖像,,并根據所述字符圖像提取其字符圖像特征矢量;
步驟七:基于局部敏感哈希變換原理,將字符圖像的字符圖像特征矢量變換為偽碼,所述偽碼由L個16位整數串接而成;
步驟八:令i=1,j=1;
步驟九:獲取字符圖像的偽碼與字符標引數據庫中字符圖像的偽碼之間的字符相似度S=M/L,其中,M為所述兩個偽碼之間屬性相等的個數;
步驟十:判斷所獲取的字符相似度S是否小于相似度閾值1/L,如果是,則執行步驟十四,否則,執行步驟十一;
步驟十一:判定字符圖像與字符標引數據庫中字符圖像相似,將所述字符圖像及步驟九獲取的字符相似度S保存;
步驟十二:判斷是否存在i=n,如果是,則令i=1,執行步驟十三,否則令i=i+1,執行步驟十四;
步驟十三:將步驟十一所存儲的與之間的n個字符組成的詞作為有效查詢結果保存,并將步驟十一所存儲的n個字符相似度S相乘作為所述詞相似度保存,然后執行步驟十四;
步驟十四:判斷是否存在j<N,如果是,則令j=j+1,返回執行步驟九,否則執行步驟十五;
步驟十五:將步驟十三所保存的有效查詢結果按照其在文檔中出現的先后順序輸出,完成檢索。
2.根據權利要求1所述的一種基于內容的圖像格式中文文檔檢索方法,其特征在于在步驟三中,構建hash函數h的具體過程為:首先定義m維空間中規則多面體的定點集合,其中,,并定義旋轉矩陣A,然后建立hash函數,為單位矢量,所述hash函數映射的結果集為。
3.根據權利要求1或2所述的一種基于內容的圖像格式中文文檔檢索方法,其特征在于在步驟三中,偽碼中16位整數的個數L的范圍為1~50。
4.根據權利要求3所述的一種基于內容的圖像格式中文文檔檢索方法,其特征在于偽碼中16位整數的個數L=20。
??
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010226787.5/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





