[發明專利]基于改進哈希學習算法的大規模數據檢索方法在審
| 申請號: | 202011202256.2 | 申請日: | 2020-11-02 |
| 公開(公告)號: | CN112307225A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 曹媛;劉峻瑋;桂杰 | 申請(專利權)人: | 中國海洋大學 |
| 主分類號: | G06F16/432 | 分類號: | G06F16/432;G06F16/22 |
| 代理公司: | 青島海昊知識產權事務所有限公司 37201 | 代理人: | 劉艷青 |
| 地址: | 266100 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進 學習 算法 大規模 數據 檢索 方法 | ||
1.一種基于改進哈希學習算法的大規模數據檢索方法,其特征在于,該檢索方法包括以下步驟:
S1:獲取數據;
S2:基于哈希學習算法,首先將數據映射到投影點,得到投影維數;
S3:分析每個投影維數的重要性,并將重要性定義為判別力,選取一個具有高分辨力的投影維數子集,并用最小方差算法將其分組;
S4:對于同一組中的投影維數,用兩步迭代算法自適應地學習閾值,將它們劃分成相同數目的區域;
S5:將上述S4得到的區域進行量化,再將每個區域替換為其代表點;
S6:計算兩個量化哈希碼之間的曼哈頓距離并按從小到大的順序排序,完成搜索,輸出搜索結果。
2.如權利要求1所述的大規模數據檢索方法,其特征在于,所述S5,在量化步驟中,基于可變碼本量化算法,每個區域都用其對應的碼本值進行量化,將區分能力較大的組劃分為更多的區域;或基于可變整數的量化算法中,用整數量化區域,將區分能力較大的組劃分為更多的區域。
3.如權利要求1所述的大規模數據檢索方法,其特征在于,所述S2具體為:對于數據庫點xi∈Rd,首先將它映射到投影點ui∈Rk;令為n維數據點,μ表示數據平均值,P∈Rd×k表示譜哈希、主成分分析哈希和迭代量化中學習的投影矩陣,對于任何xi∈X,計算第j投影維數:
uij=p′j(xi-μ) (1)
其中pj表示P的第j列,集中X的目的是確保每個投影維度上的偏差基于零。
4.如權利要求1所述的大規模數據檢索方法,其特征在于,所述S3中:采用主成分分析的分析模型分析每個投影維數的重要性,并將重要性定義為判別力;令U={{uij}ni=1}kj=1∈Rn×k為投影矩陣,公式為U的協方差矩陣,利用egi(S,k)函數計算協方差矩陣S的k個最大特征值L=diag(l11,l22,…,lkk)作為判別冪:L=eig(S,k)。
5.如權利要求4所述的大規模數據檢索方法,其特征在于,所述S3中:所述最小方差算法是將投影維數分成幾個組,同一組中的投影尺寸應盡可能相似,將其表述如下:
gr,mr∈N
其中R表示分組的個數,Gr表示第r個組,gr表示Gr中投影維數的個數,θr表示Gr中l的平均值;(3)應滿足上述約束條件,其中mr表示Gr組嵌入的哈希比特數,k表示哈希比特總數,N表示自然數集合;
放松約束后,得到:
subject to:3g1+2g2+g3=k
g1,g2,g3∈N, (4)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國海洋大學,未經中國海洋大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011202256.2/1.html,轉載請聲明來源鉆瓜專利網。





