[發明專利]基于item2vec和向量聚類的實時推薦方法在審
| 申請號: | 202210246577.5 | 申請日: | 2022-03-14 |
| 公開(公告)號: | CN114610960A | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 許良武;曹陽;李菲;李曉明 | 申請(專利權)人: | 三江學院 |
| 主分類號: | G06F16/9035 | 分類號: | G06F16/9035;G06F16/906;G06F40/30;G06K9/62;G06Q30/06 |
| 代理公司: | 南京天翼專利代理有限責任公司 32112 | 代理人: | 錢新園 |
| 地址: | 210012 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 item2vec 向量 實時 推薦 方法 | ||
1.一種基于item2vec和向量聚類的實時推薦方法,其特征在于,包括:
item2vec算法模型訓練獲得物品向量:根據用戶的行為數據,構建用戶行為序列,通過item2vec算法模型訓練獲得物品向量并保存在另設的物品向量庫中;
近線層用戶向量計算:接入用戶的點擊或瀏覽行為日志實時消息流kafka,保存用戶的近期行為序列;將近期的行為記錄序列取出,在物品向量庫中檢索到物品向量,按照公式, 通過物品向量加權平均計算得到用戶向量并保存在另設的用戶向量庫中,其中,為從當前時間往前數第i物品的物品向量,n為最近瀏覽的物品數量,α為時間衰減因子,取值為0-1之間的小數;
物品向量聚類:設定每個類別物品數量的范圍,從而確定物品向量聚類的類別數量;設定每一類別的初始聚類中心點,通過kmeans聚類算法進行迭代計算獲得每個物品向量所屬的類別劃分,同時獲得每個類別的聚類中心向量,將類別標識寫入到另設的物品向量聚類庫中;
實時推薦:在用戶請求的實施推薦接口中,根據用戶ID讀取用戶向量,根據用戶向量對物品向量進行檢索,檢索時,采用兩級檢索機制加快檢索效率,首先根據用戶向量與物品向量各聚類中心向量的相似度確定最接近的一個或多個物品聚類,并在檢索到的聚類中進一步檢索物品向量;將檢索結果按相似度進行倒排序,按照召回數量截取相似度最高物品列表形成推薦召回結果集。
2.根據權利要求1所述的基于item2vec和向量聚類的實時推薦方法,其特征在于,在構建用戶行為序列時,根據用戶在物品上所花費時間選擇用戶真正喜歡的物品作為用戶行為序列。
3.根據權利要求1所述的基于item2vec和向量聚類的實時推薦方法,其特征在于,在item2vec模型訓練過程中,設定稠密向量的維度k,訓練數據集每行是一個用戶喜歡的物品有序數據集,訓練獲得的物品向量進行標準化處理,使得標準化后的向量長度為1。
4.根據權利要求1所述的基于item2vec和向量聚類的實時推薦方法,其特征在于,α具體取值根據實驗確定,借助AB實驗結合CTR/CVR指標來選擇相對優選值。
5.根據權利要求1所述的基于item2vec和向量聚類的實時推薦方法,其特征在于,設定每個類別物品數量的范圍時,分別設定每個類別物品數量的最大值Nmax以及最小值Nmin,物品向量聚類的類別數量M為物品向量的規模除以(Nmax+Nmin)/2。
6.根據權利要求1所述的基于item2vec和向量聚類的實時推薦方法,其特征在于,設定每一類別的初始聚類中心點時,初始聚類中心點設定規則為:首先所有樣本中最靠近中心的樣本點作為第一個類別的初始聚類中心點,然后選擇距離第一個初始聚類中心點最遠的樣本點作為第二個類別的初始聚類中心點,然后再選擇距離前兩個聚類中心點最短距離最大的點作為第三個初始聚類中心點,以此類推,直至選出所有聚類的初始類聚類中心點。
7.根據權利要求1所述的基于item2vec和向量聚類的實時推薦方法,其特征在于,用戶向量與物品向量聚類中心點計算相似度的過程,利用多核并行矩陣運算加快檢索速度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三江學院,未經三江學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210246577.5/1.html,轉載請聲明來源鉆瓜專利網。





