[發明專利]一種編目信息的分類、檢索方法和裝置在審
| 申請號: | 201711091377.2 | 申請日: | 2017-11-08 |
| 公開(公告)號: | CN107729557A | 公開(公告)日: | 2018-02-23 |
| 發明(設計)人: | 柳軍飛;范紅杰;麻志毅;孫博 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集智東方知識產權代理有限公司11578 | 代理人: | 陳亞斌,關兆輝 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 編目 信息 分類 檢索 方法 裝置 | ||
技術領域
本發明涉及檢索領域,特別是指一種編目信息的分類、檢索方法和裝置。
背景技術
伴隨著互聯網技術的飛速發展以及網絡帶寬的極大提升,存儲在互聯網上的各種信息資源呈爆炸式增長。這些海量的信息資源中,不乏存在巨大商業價值的寶貴資源。如何在海量的信息資源中進行高效檢索便成為信息資源高效利用并最大化其價值的關鍵。
各種信息資源中包括文檔、視頻、音頻等資源,為便于對這些信息資源進行管理和檢索,通常會對每個信息資源維護一個編目信息,用以概括該信息資源的主要信息。不同的媒資生產商會根據自己的需要定義不同的媒資編目信息,但這種異構的媒資編目信息嚴重地阻礙了不同廠商之間進行媒資系統間信息的融合。
這種異構數據往往是海量的且是高維度的,如何快速、有效地從海量的高維編目數據集合中找到與某個數據最相似(距離最近)的一個或多個編目數據成為信息資源高效利用的關鍵。
發明內容
有鑒于此,本發明的目的在于提出一種編目信息的分類、檢索方法和裝置,以便更高效地對海量信息資源的編目信息進行檢索,以高效地實現對海量信息資源的檢索和價值利用。
基于上述目的本發明提供一種編目信息的檢索方法,包括:
提取查詢信息中的特征詞語,將提取的特征詞語組成所述查詢信息的特征詞語集合;
針對所述查詢信息的特征詞語集合應用預先構建的一組局部敏感的哈希函數簇H將所述查詢信息映射到相應的哈希桶;
在所述查詢信息映射的哈希桶中的編目信息里,根據所述查詢信息進行檢索,得到檢索結果;
其中,所述哈希桶中的編目信息是預先利用所述哈希函數簇H從海量編目信息中映射到所述哈希桶中的。
其中,所述哈希桶中的編目信息具體是根據如下方法預先從海量編目信息中映射到所述哈希桶中的:
針對海量編目信息中的每個編目信息,提取該編目信息中的特征詞語,將提取的特征詞語組成該編目信息的特征詞語集合;
針對海量編目信息中的每個編目信息,對該編目信息的特征詞語集合應用所述哈希函數簇H將該編目信息映射到相應的哈希桶中。
其中,所述局部敏感的哈希函數簇H是根據如下方法預先構建的:
基于確定的參數k和L,以及一組基礎的局部敏感的哈希函數簇H0,構建所述哈希函數簇H;
其中,參數k為哈希鍵長度,參數L為組成哈希函數簇H的哈希函數的個數。
本發明還提供一種編目信息的分類方法,包括:
針對海量編目信息中的每個編目信息,提取該編目信息中的特征詞語,將提取的特征詞語組成該編目信息的特征詞語集合;
針對海量編目信息中的每個編目信息,對該編目信息的特征詞語集合應用所述哈希函數簇H將該編目信息映射到相應的哈希桶中。
本發明還提供一種編目信息的檢索裝置,包括:
特征提取模塊,用于提取查詢信息中的特征詞語,將提取的特征詞語組成所述查詢信息的特征詞語集合;
映射模塊,用于針對所述查詢信息的特征詞語集合應用預先構建的一組局部敏感的哈希函數簇H將所述查詢信息映射到相應的哈希桶;其中,所述哈希桶中的編目信息是預先利用所述哈希函數簇H從海量編目信息中映射到所述哈希桶中的;
檢索模塊,用于在所述查詢信息映射的哈希桶中的編目信息里,根據所述查詢信息進行檢索,得到檢索結果。
本發明還提供一種編目信息的分類裝置,包括:
特征提取模塊,用于針對海量編目信息中的每個編目信息,提取該編目信息中的特征詞語,將提取的特征詞語組成該編目信息的特征詞語集合;
映射模塊,用于針對海量編目信息中的每個編目信息,對該編目信息的特征詞語集合應用所述哈希函數簇H將該編目信息映射到相應的哈希桶中。
本發明技術方案中,針對查詢信息利用局部敏感哈希算法確定出查詢信息所映射的哈希桶;根據查詢信息,在確定出的哈希桶中進行檢索,而對于其它哈希桶中的編目信息則可忽略,從而可以更高效、快速地從海量信息資源的編目信息中檢索到與查詢信息相匹配的編目信息,實現高效地對海量信息資源的檢索和價值利用。
附圖說明
圖1為本發明實施例提供的一種編目信息的分類方法流程圖;
圖2為本發明實施例提供的一種哈希函數簇H構建方法流程圖;
圖3為本發明實施例提供的一種編目信息的檢索方法流程圖;
圖4為本發明實施例提供的一種編目信息的分類裝置內部結構框圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711091377.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種中紅外窄帶可調諧濾波器
- 下一篇:背光模組自動貼合裝置及其方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





