[發明專利]一種針對單類協同過濾問題的負樣本選擇方法有效
| 申請號: | 201710285697.5 | 申請日: | 2017-04-27 |
| 公開(公告)號: | CN107423335B | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 劉夢娟;馬小栓;薛浩 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/9536;G06Q30/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 611731 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 協同 過濾 問題 樣本 選擇 方法 | ||
1.一種針對單類協同過濾問題的負樣本選擇方法,其特征在于,包括以下步驟:
步驟1:針對每個用戶u,計算用戶u沒有行為的物品的流行度權重具體步驟為:
步驟1.1:統計在整個系統日志中,每個物品i被所有用戶執行行為的總次數,記為num(i),i=1,2,…,N,N為物品總數;
步驟1.2:將物品按被所有用戶執行行為的次數num(i)由低到高升序排列;
步驟1.3:將升序排列后的N個物品按數量平均分為K個等級,每個等級中物品的數量為K個等級分別記為level1,level2…levelK,levelk中物品被執行的行為總數小于等于levelk+1中物品被執行的行為總數;
步驟1.4:根據每個物品所屬于的等級,給每個物品標注流行度,屬于levelk的物品其流行度為k(k=1,2,…,K);
步驟1.5:利用公式(1)計算每個物品的流行度權重,其中α為調節因子,由系統根據實際情況設定,范圍為(0,1],這里物品的流行度越大流行度權重越大,其作為負樣本的權重越大,假設物品i屬于levelk,即物品i的流行度為k;
wp(i)=1+α·k (1)
步驟1.6:通過公式(2)所示的最大最小歸一化方法,將每個物品的流行度權重歸一化到[0,1]范圍,其中min{wp(i)}表示所有物品中最小流行度,max{wp(i)}表示所有物品中最大流行度;
步驟2:根據每個用戶的社交關系,計算用戶u沒有行為的物品被選擇作為該用戶負樣本的社交關系權重ws(u,i),具體步驟為:
步驟2.1:針對一個特定用戶u,計算該用戶的好友有行為而該用戶沒有行為的物品集合,記為itemDIFF(u),計算公式如(3)所示,這里用戶u的好友集合為friend(u),item(x)表示好友x有行為的物品集合,item(u)表示用戶u有行為的物品集合;itemDIFF(u)如果不為空集,說明存在物品是用戶u好友有行為而用戶u沒有行為的,則繼續執行步驟2.2;否則,如果itemDIFF(u)為空集,說明不存在物品是用戶u沒有行為而好友有行為的,因此無法根據社交關系推斷哪些沒有行為的物品是用戶u的負樣本,因此對于用戶u物品i被選擇為負樣本的權重均設為0,即ws(u,i)=0,執行步驟3;
步驟2.2:建立物品集合itemDIFF(u)中每個物品與用戶u好友的倒排索引表,對于itemDIFF(u)中的物品i,只有好友x對其有行為時,倒排索引表的元素a[i][x]=1,否則a[i][x]=0;
步驟2.3:計算用戶u的社交關系對itemDIFF(u)中的物品i作為負樣本的權重,如公式(4)所示,其中表示好友x對用戶u的影響力,定義如公式(5)所示,這里overlap(x,u)表示好友x和用戶u有共同行為的物品數,越大,說明好友x對用戶u的影響力越大;
步驟2.4:重復執行步驟2.1-2.3,得到每個用戶根據其社交關系計算的沒有行為的物品被選擇為負樣本的社交關系權重;
步驟3:基于物品的特征和每個用戶的歷史行為,利用邏輯回歸模型分別計算每個用戶沒有行為的物品被選擇為負樣本的物品特征權重wf(u,i),具體步驟為:
步驟3.1:物品的特征記為f1,f2,…fF,針對一個特定用戶u已有行為的物品集合,基于邏輯回歸模型訓練用戶u對應的物品特征偏好模型及參數wff(f=1,2,…F);
步驟3.2:利用訓練后的用戶u的物品特征偏好模型,計算用戶u對沒有行為的物品i的偏好程度like(u,i),計算方法如公式(6)所示;
步驟3.3:計算用戶u,對于其沒有行為的物品i選擇作為該用戶負樣本的物品特征權重,計算方法如公式(7)所示;
wf(u,i)=1-like(u,i) (7)
步驟3.4:重復執行步驟3.1-3.3,訓練每個用戶關于物品特征的偏好模型,計算每個用戶,考慮物品特征因素,選擇物品作為負樣本的物品特征權重;
步驟4:融合物品的流行度權重、社交關系權重、物品特征權重,計算用戶u選擇物品i作為其負樣本的概率,如公式(8)所示,其中是物品的流行度權重,η1是物品的流行度權重對該物品被選擇為用戶u的負樣本的影響力因子,η1的范圍為[0,1];ws(u,i)是參考用戶u的社交關系的社交關系權重,η2是社交關系權重對該物品被選擇為用戶u的負樣本的影響力因子,η2的范圍為[0,1];wf(u,i)是參考用戶對物品特征偏好的物品特征權重,η3是用戶對物品特征偏好權重對該物品被選擇為用戶u的負樣本的影響力因子,η3的范圍為[0,1];滿足η1+η2+η3=1;
步驟5:對每個用戶u,將用戶u沒有行為的物品根據計算得到的負樣本概率值降序排列,按照與正樣本數的一個比例關系,選擇若干概率值最高的物品作為負樣本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710285697.5/1.html,轉載請聲明來源鉆瓜專利網。





