[發明專利]一種索引生成方法、數據檢索方法和裝置有效
| 申請號: | 201611170581.9 | 申請日: | 2016-12-16 |
| 公開(公告)號: | CN106777130B | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 崔江濤;馮小康;劉暢;侯勇超;蔡洋 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/41 | 分類號: | G06F16/41;G06F16/43;G06F16/31;G06F16/33 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 李世喆 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 索引 生成 方法 數據 檢索 裝置 | ||
本發明提供了一種索引生成方法、數據檢索方法和裝置,通過提取每一個樣本數據元的樣本特征向量和樣本標識;為每一個樣本特征向量生成對應的近鄰圖索引,并隨機生成至少一個映射向量;針對每一個映射向量,執行:根據預設的區間寬度,將映射向量劃分為至少兩個區間,并為每一個區間分配對應的區間標識;將每一個樣本特征向量映射到映射向量;根據映射的結果,將每一個樣本標識分配給相關的區間標識,生成倒排文檔索引,在基于倒排文檔索引和近鄰圖索引進行數據檢索的過程,是利用倒排文檔索引給出的區間標識和近鄰圖索引直接獲得與檢索信息相關性比較大的樣本數據元,從而能夠有效地提高檢索效率。
技術領域
本發明涉及計算機技術領域,特別涉及一種索引生成方法、數據檢索方法和裝置。
背景技術
數據檢索一般是指根據外部輸入的檢索信息,檢索出與檢索信息相匹配的多種模態的數據。如根據外部輸入的一段文字或者一段視頻等,檢索出與該段文字或者視頻相關的文檔、視頻、音頻以及圖像等。隨著以多媒體數據(如圖像、視頻和音頻等)為代表的非結構化數據已成為大數據的主體,基于海量多媒體數據的檢索備受關注。
一般來說,在進行數據檢索之前,提取每一個樣本數據的樣本特征向量,并將每一個樣本特征向量存儲到數據庫。在數據檢索的過程中,提取出檢索信息的檢索特征向量,通過遍歷數據庫中所有的樣本特征向量,查找檢索特征向量對應的近鄰樣本特征向量。例如:數據庫中存儲有1012個樣本特征向量,對檢索信息A進行檢索時,需要遍歷這1012個樣本特征向量,才能查找出檢索信息A對應的近鄰樣本特征向量,然后,基于查找到的近鄰樣本特征向量,輸出檢索結果。
對于現有的這種數據檢索方式來說,由于查找近鄰樣本特征向量的過程,會有大量無關的樣本特征向量干擾,造成檢索效率較低。
發明內容
本發明實施例提供了一種索引生成方法、數據檢索方法和裝置,能夠有效地提高檢索效率。
第一方面,一種索引生成方法,還包括:
提取每一個樣本數據元的樣本特征信息,所述樣本特征信息,包括:樣本特征向量和樣本標識;
為每一個所述樣本特征向量生成對應的近鄰圖索引;
隨機生成至少一個映射向量;
針對每一個所述映射向量,執行:
根據預設的區間寬度,將所述映射向量劃分為至少兩個區間,并為每一個所述區間分配對應的區間標識;
將每一個所述樣本特征向量映射到所述映射向量;
根據映射的結果,將每一個所述樣本標識分配給相關的所述區間標識,生成倒排文檔索引。
可選地,當所述映射向量的個數為至少兩個時,所述至少兩個映射向量滿足標準正態分布。
可選地,所述為每一個所述區間分配對應的區間標識,包括:
從所述映射向量的起始位置,為每一個所述區間進行順序編號;
確定每一個所述區間的編號為對應的所述區間標識。
可選地,所述為每一個所述樣本特征向量生成對應的近鄰圖索引,包括:
針對每一個所述樣本特征向量,執行:
為所述樣本特征向量查找至少一個近鄰樣本特征向量;
從所述樣本特征向量開始,向每一個所述近鄰樣本特征向量繪制對應的有向邊,形成所述樣本特征向量的近鄰圖索引。
可選地,上述方法進一步包括:構建數據空間;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611170581.9/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





