[發(fā)明專利]基于item2vec和向量聚類的實時推薦方法在審
| 申請?zhí)枺?/td> | 202210246577.5 | 申請日: | 2022-03-14 |
| 公開(公告)號: | CN114610960A | 公開(公告)日: | 2022-06-10 |
| 發(fā)明(設(shè)計)人: | 許良武;曹陽;李菲;李曉明 | 申請(專利權(quán))人: | 三江學(xué)院 |
| 主分類號: | G06F16/9035 | 分類號: | G06F16/9035;G06F16/906;G06F40/30;G06K9/62;G06Q30/06 |
| 代理公司: | 南京天翼專利代理有限責(zé)任公司 32112 | 代理人: | 錢新園 |
| 地址: | 210012 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 item2vec 向量 實時 推薦 方法 | ||
本發(fā)明公開了一種基于item2vec和向量聚類的實時推薦方法,本發(fā)明通過用戶的行為序列,離線訓(xùn)練item2vec模型獲得物品的Embedding向量,近線計算通過用戶近期行為結(jié)合物品向量生成用戶向量,在實時計算中根據(jù)用戶向量計算與物品向量之間的相似度進行物品推薦,向量相似計算過程中首先對物品向量進行聚類以加快向量檢索速度,最終實現(xiàn)快速實時推薦,挖掘推薦的深層次語義關(guān)聯(lián),精準(zhǔn)捕獲用戶興趣轉(zhuǎn)換,提升用戶的粘度。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)智能推薦技術(shù)領(lǐng)域,特別涉及一種基于item2vec和向量聚類的實時推薦方法。
背景技術(shù)
隨著信息爆炸時代的到來,對于數(shù)以億計的用戶和百萬甚至更高數(shù)量級的物品,如何快速并準(zhǔn)確地把握住用戶興趣的轉(zhuǎn)移,給用戶推薦感興趣的內(nèi)容,對于電商、資訊等平臺而言至關(guān)重要。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于item2vec和向量聚類的實時推薦方法,本發(fā)明通過用戶的行為序列,離線訓(xùn)練item2vec模型獲得物品的Embedding向量,近線計算通過用戶近期行為結(jié)合物品向量生成用戶向量,在實時計算中根據(jù)用戶向量計算與物品向量之間的相似度進行物品推薦,向量相似計算過程中首先對物品向量進行聚類以加快向量檢索速度,最終實現(xiàn)快速實時推薦,挖掘推薦的深層次語義關(guān)聯(lián),精準(zhǔn)捕獲用戶興趣轉(zhuǎn)換,提升用戶的粘度。
本發(fā)明的上述目的是通過以下技術(shù)方案實現(xiàn)的,一種基于item2vec和向量聚類的實時推薦方法,其特征在于,包括:
item2vec算法模型訓(xùn)練獲得物品向量:根據(jù)用戶的行為數(shù)據(jù),構(gòu)建用戶行為序列,通過item2vec算法模型訓(xùn)練獲得物品向量并保存在另設(shè)的物品向量庫中;
近線層用戶向量計算:接入用戶的點擊或瀏覽行為日志實時消息流kafka,保存用戶的近期行為序列;將近期的行為記錄序列取出,在物品向量庫中檢索到物品向量,按照公式, 通過物品向量加權(quán)平均計算得到用戶向量并保存在另設(shè)的用戶向量庫中,其中,為從當(dāng)前時間往前數(shù)第i物品的物品向量,n為最近瀏覽的物品數(shù)量,α為時間衰減因子,取值為0-1之間的小數(shù);
物品向量聚類:設(shè)定每個類別物品數(shù)量的范圍,從而確定物品向量聚類的類別數(shù)量;設(shè)定每一類別的初始聚類中心點,通過kmeans聚類算法進行迭代計算獲得每個物品向量所屬的類別劃分,同時獲得每個類別的聚類中心向量,將類別標(biāo)識寫入到另設(shè)的物品向量聚類庫中;
實時推薦:在用戶請求的實施推薦接口中,根據(jù)用戶ID讀取用戶向量,根據(jù)用戶向量對物品向量進行檢索,檢索時,首先根據(jù)用戶向量與物品向量各聚類中心向量的相似度確定最接近的一個或多個物品聚類,并在檢索到的聚類中進一步檢索物品向量;將檢索結(jié)果按相似度進行倒排序,按照召回數(shù)量截取相似度最高物品列表形成推薦召回結(jié)果集。
進一步的,在構(gòu)建用戶行為序列時,根據(jù)用戶在物品上所花費時間選擇用戶真正喜歡的物品作為用戶行為序列。
進一步的,在item2vec模型訓(xùn)練過程中,設(shè)定稠密向量的維度k,訓(xùn)練數(shù)據(jù)集每行是一個用戶喜歡的物品有序數(shù)據(jù)集,訓(xùn)練獲得的物品向量進行標(biāo)準(zhǔn)化處理,使得標(biāo)準(zhǔn)化后的向量長度為1。
進一步的,α具體取值根據(jù)實驗確定,借助AB實驗結(jié)合CTR/CVR指標(biāo)來選擇相對優(yōu)選值。
進一步的,設(shè)定每個類別物品數(shù)量的范圍時,分別設(shè)定每個類別物品數(shù)量的最大值Nmax以及最小值Nmin,物品向量聚類的類別數(shù)量M為物品向量的規(guī)模除以(Nmax+Nmin)/2。
進一步的,設(shè)定每一類別的初始聚類中心點時,初始聚類中心點設(shè)定規(guī)則為:首先所有樣本中最靠近中心的樣本點作為第一個類別的初始聚類中心點,然后選擇距離第一個初始聚類中心點最遠的樣本點作為第二個類別的初始聚類中心點,然后再選擇距離前兩個聚類中心點最短距離最大的點作為第三個初始聚類中心點,以此類推,直至選出所有聚類的初始類聚類中心點。
進一步的,用戶向量與物品向量聚類中心點計算相似度的過程,利用多核并行矩陣運算加快檢索速度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于三江學(xué)院,未經(jīng)三江學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210246577.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





