[發明專利]向量聚類訓練方法及裝置在審
| 申請號: | 202010461281.6 | 申請日: | 2020-05-27 |
| 公開(公告)號: | CN113298103A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 樓仁杰;陸元飛;李飛飛;占超群;魏闖先 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 吳肖肖 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 向量 訓練 方法 裝置 | ||
本說明書實施例提供向量聚類訓練方法及裝置,其中所述向量聚類訓練方法包括:持續接收待聚類向量,其中,所述待聚類向量包括向量標識;根據所述向量標識確定所述待聚類向量的目標聚類隊列,將所述待聚類向量添加至所述目標聚類隊列的隊尾;利用所述目標聚類隊列對應的聚類進程從所述目標聚類隊列中按照先進先出順序依次讀取所述目標聚類隊列中的待聚類向量進行聚類訓練,獲取聚類結果,并統計參與聚類訓練的待聚類向量的數量;在所述參與聚類訓練的待聚類向量的數量達到預設閾值的情況下,將獲得的聚類結果確定為所述目標聚類隊列的聚類結果。
技術領域
本說明書實施例涉及計算機技術領域,特別涉及一種向量聚類訓練方法。本說明書一個或者多個實施例同時涉及一種向量聚類訓練裝置,一種計算設備,以及一種計算機可讀存儲介質。
背景技術
隨著計算機技術的發展,近似最近鄰檢索(Approximate NearestNeighborSearch,ANN檢索)也被廣泛應用于多進程架構的分析型數據庫中,ANN檢索就是通過預先構建的索引快速檢索高維空間中的最近的N個相鄰向量,此方法能返回近似準確結果,但不能保證準確。
K均值(Kmeans)聚類是源于信號處理中的一種向量量化方法,同時也是數據挖掘領域中經典的聚類分析方法,同時Kmeans聚類是ANN檢索中非常重要的輔助工具,現有的異步Kmeans聚類訓練方法通常在訓練向量達到一定規模之后才能觸發,同時訓練的過程持續時間非常長,訓練時產生大量的IO讀取數據,影響使用效率,而直接獲取寫入的向量進行同步Kmeans聚類訓練時,每條寫入向量都需要更新訓練狀態,導致多個訓練進程之間的鎖沖突非常嚴重,影響訓練效率。
因此,如何解決上述問題,提高Kmeans聚類訓練的效率,盡快獲得可用的簇心向量,就成為目前技術人員亟待解決的問題。
發明內容
有鑒于此,本說明書施例提供了一種向量聚類訓練方法。本說明書一個或者多個實施例同時涉及一種向量聚類訓練裝置,一種計算設備,以及一種計算機可讀存儲介質,以解決現有技術中存在的技術缺陷。
根據本說明書實施例的第一方面,提供了一種向量聚類訓練方法,包括:
持續接收待聚類向量,其中,所述待聚類向量包括向量標識;
根據所述向量標識確定所述待聚類向量的目標聚類隊列,將所述待聚類向量添加至所述目標聚類隊列的隊尾;
利用所述目標聚類隊列對應的聚類進程從所述目標聚類隊列中按照先進先出順序依次讀取所述目標聚類隊列中的待聚類向量進行聚類訓練,獲取聚類結果,并統計參與聚類訓練的待聚類向量的數量;
在所述參與聚類訓練的待聚類向量的數量達到預設閾值的情況下,將獲得的聚類結果確定為所述目標聚類隊列的聚類結果。
可選的,根據所述向量標識確定所述待聚類向量的目標聚類隊列,包括:
將所述向量標識與預設的聚類隊列集合中每個聚類隊列的隊列標識進行比較,根據預設的隊列配置參數在共享內存中分配對應數量的聚類隊列,為每個聚類隊列配置有對應的聚類進程,并在所述共享內存中為每個聚類進程分配共享緩存;
在存在與所述向量標識相同的隊列標識的情況下,將所述隊列標識對應的聚類隊列確定為目標聚類隊列。
可選的,所述方法還包括:
在不存在與所述向量標識相同的隊列標識的情況下,在所述聚類隊列集合中查找隊列標識為空的聚類隊列;
在查找到隊列標識為空的至少一個聚類隊列的情況下,將任意一個隊列標識為空的聚類隊列確定為目標聚類隊列,并將所述目標聚類隊列的隊列標識設置為與所述向量標識相同。
可選的,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010461281.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:存儲器結構及其制造方法
- 下一篇:數據備份方法、數據恢復方法及裝置





