[發明專利]向量索引建立方法及裝置和向量檢索方法及裝置有效
| 申請號: | 201811058763.6 | 申請日: | 2018-09-11 |
| 公開(公告)號: | CN110889424B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 趙康;潘攀;任小楓 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F18/23 | 分類號: | G06F18/23;G06F16/2455 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 李丹;栗若木 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 索引 建立 方法 裝置 檢索 | ||
本申請公開了一種向量索引建立方法及裝置和向量檢索方法及裝置,本申請采用的是百萬級的二值聚類,對于N個二值特征,產生出底層的第一聚類中心以及頂層的第二聚類中心,并且一個第一聚類中心同時歸屬于兩個以上第二聚類中心所在聚類簇,這樣,緩解了聚類邊緣點誤差較大的情況,更好地保證了向量檢索的準確度。
技術領域
本申請涉及但不限于大數據搜索技術,尤指一種向量索引建立方法及裝置和向量檢索方法及裝置。
背景技術
隨著數據爆炸式的增長,向量檢索在圖像、視頻、文字和語音等多媒體領域中已經越來越重要。其中,向量檢索是指,對于查詢(query)向量即用戶輸入的查詢向量,在固定的一個向量庫中,查找與這個query向量距離最近的若干個向量。
向量被二值化已然成為一種趨勢,由于被二值化的向量是由0和1組成的二值特征,它不僅可以壓縮存儲,同時加速了計算。
發明內容
本發明實施例提供一種向量索引建立方法及裝置和向量檢索方法及裝置,能夠提高檢索的準確度。
本發明實施例提供了一種向量索引建立方法,包括:
根據N個二值特征和預設第一數值,獲取預設第一數值個第一聚類中心,其中,N為大于或等于億級的數值,預設第一數值為百萬級數值;
根據第一聚類中心和預設第二數值,獲取預設第二數值個第二聚類中心;其中,一個第一聚類中心歸屬于兩個以上第二聚類中心所在聚類簇;
根據獲取的預設第一數值個第一聚類中心建立第一索引,根據獲取的預設第二數值個第二聚類中心建立第二索引。
可選地,所述根據N個二值特征和預設第一數值,獲取預設第一數值個第一聚類中心,包括:
根據所述N個二值特征和所述預設第一數值,獲取預設第一數值個第一聚類簇;
對獲取的每個第一聚類簇,根據第一聚類簇包括的二值特征對應的維度更新該第一聚類簇的聚類中心;
利用更新后的聚類中心和所述N個二值特征進行聚類迭代直到滿足迭代結束條件,得到所述預設第一數值個第一聚類中心。
可選地,所述利用更新后的聚類中心和N個二值特征進行聚類迭代直到滿足迭代結束條件,包括:
以所述更新后得到的聚類中心替換上一次聚類中心,返回所述根據N個二值特征和預設第一數值,獲取所述預設第一數值個第一聚類簇的步驟。
可選地,所述根據所述N個二值特征和所述預設第一數值,獲取預設第一數值個第一聚類簇,包括:
從所述N個二值特征中采樣所述預設第一數值個二值特征作為初始的第一聚類中心;
分別計算所述N個二值特征和初始的第一聚類中心的海明距離,使得所述N個二值特征分別歸屬于距離自身最近的第一聚類中心,以形成所述預設第一數值個第一聚類簇。
可選地,所述對獲取的每個第一聚類簇,根據第一聚類簇包括的二值特征對應的維度更新該第一聚類簇的聚類中心,包括:
將所述第一聚類簇中的二值特征對應維度累加;
計算累加值與該第一聚類簇包括的二值特征的個數的商,將得到的商二值化并作為更新后的該第一聚類簇的聚類中心。
可選地,所述根據第一聚類中心和預設第二數值,獲取預設第二數值個第二聚類中心,包括:
根據所述預設第一數值個第一聚類中心對應的二值特征和所述預設第二數值,獲取預設第二數值個第二聚類簇;
對獲取的每個第二聚類簇,根據第二聚類簇包括的二值特征對應的維度更新該第二聚類簇的聚類中心;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811058763.6/2.html,轉載請聲明來源鉆瓜專利網。





