[發明專利]一種優化用戶相似度的協同過濾方法在審
| 申請號: | 201910312071.8 | 申請日: | 2019-04-18 |
| 公開(公告)號: | CN110134874A | 公開(公告)日: | 2019-08-16 |
| 發明(設計)人: | 安彥涵;張新鵬;吳漢舟;余江;王子馳 | 申請(專利權)人: | 上海大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06K9/62 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 陸聰明 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 協同過濾 相似度 用戶相似度 算法 優化 預處理 用戶評分數據 向量距離 傳統的 非對稱 權重和 數據集 權重 延時 服務器 標準化 | ||
1.一種優化用戶相似度的協同過濾方法,通過將用戶的評分向量標準化,結合用戶向量距離的評價權重、非對稱的相似度權重對Pearson相似度優化,最后進行用戶評分的預測,其特征在于,具體步驟如下:
1)籌備實驗數據庫:收集一定數量用戶對不同項目的評分值,建立實驗數據庫;
2)標準化預處理:運用Z-score方法對每個用戶的評分向量進行標準化,并依據標準化后的用戶評分向量,生成用戶——項目評分矩陣;
3)計算用戶的相似度矩陣:根據步驟2)生成的用戶——項目評分矩陣,計算Pearson相似度、用戶向量距離的評價權重、非對稱的相似度權重;結合用戶向量距離的評價權重、非對稱的相似度權重對Pearson相似度進行優化,得出優化后的相似度公式,根據優化后的相似度公式計算出每個用戶與其他用戶的相似度,最終生成相似度矩陣;
4)預測評分:依據目標用戶與其他用戶的相似度,計算目標用戶的鄰居用戶集合,通過評分公式對目標用戶的未評分項目進行預測。
2.根據權利要求1所述的優化用戶相似度的協同過濾方法,其特征在于,所述步驟2)的具體步驟如下:設訓練集中第u個用戶的評分向量為Ru=(r(u,1),r(u,2),…,r(u,m)),其中z(u,m)是標準化后用戶u對項目m的評分,r(u,m)表示用戶u對項目m的評分;如式(1)所示,運用Z-score方法對Ru進行標準化,其中z(u,m)是標準化后用戶u對項目m的評分,是Ru各分量的平均值,σu是Ru各分量的標準差:
標準化后的用戶u的評分向量記為Zu=(z(u,1),z(u,2),…,z(u,m)),Zu均值為0,標準差為1;然后,生成用戶——項目評分矩陣;Zu記錄在用戶——項目評分矩陣的第u行,將用戶u未進行評分的項目的評分值記為0。
3.根據權利要求1所述的優化用戶相似度的協同過濾方法,其特征在于,所述步驟3)中以訓練集中任意兩個用戶u和用戶v為例,計算用戶u對用戶v的相似度,具體步驟如下:
3.1)計算Pearson相似度:如式(2)所示,用Pearson相似度公式度量用戶u和用戶v的Pearson相似度sim(u,v),其中集合S是用戶u和用戶v的共同評分過的項目集合:
3.2)計算用戶向量距離的評價權重:如式(3)所示,計算Zu和Zv的用戶向量距離的評價權重D(u,v),其中S是用戶u和用戶v的共同評分項目集合,N(S)為集合S的元素個數,α表示單獨一個項目的評分差距的閾值,如果α越大,D(u,v)越接近1,如果α越小,D(u,v)越接近0:
3.3)計算非對稱的相似度權重:如式(4)所示,計算用戶u對用戶v的非對稱的相似度權重w(u,v),其中,S是用戶u和用戶v的共同評分項目集合,Iu是用戶u的已評分項目集合,N(S)為集合S的元素個數,N(Iu)是集合Iu的元素個數:
3.4)用戶相似度公式:如式(5)所示,通過融合式(2)、式(3)以及式(4),得到優化后用戶u對用戶v的相似度為sim′(u,v):
sim′(u,v)=D(u,v)*w(u,v)*sim(u,v) (5)
3.5)計算用戶相似度矩陣:按式(5)計算不同用戶間的相似度,最終得到用戶相似度矩陣。
4.根據權利要求1所述的優化用戶相似度的協同過濾方法,其特征在于,所述步驟4)中以訓練集中任意用戶u的一個未評分項目a為例,計算用戶u對項目a的預測評分,具體步驟如下:
4.1)計算鄰居用戶集合:在訓練集中,找到評價過項目a的用戶集合,記為Ua={u(1,a),u(2,a),…,u(q,a)},其中u(q,a)表示第q個評價過項目a的用戶;依據這q個用戶與用戶u的相似度大小,按相似度從大到小的順序進行排序,記為U′a={u′(1,a),u′(2,a),…,u′(q,a)};再從排好序的用戶集合U′a中選取前k個用戶作為用戶u的鄰居用戶集合,記為U={u′(1,a),u′(2,a),…,u′(k,a)};
4.2)預測用戶u對項目a的評分:按式(6)計算用戶u對項目a的預測評分p(u,a),其中集合U是用戶u的鄰居用戶集合,是Ru各分量的平均值,σu是Ru各分量的標準差,z(v,a)是用戶v對項目a的標準化評分,sim′(u,v)是用戶u對用戶v的相似度:
如式(7),采用平均絕對誤差MAE來刻畫推薦精度,MAE越小說明誤差越小,精度越高,其中pi是用戶對項目i的預測評分,ri是測試集中用戶對項目i的實際評分,n是測試集中的評分數量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大學,未經上海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910312071.8/1.html,轉載請聲明來源鉆瓜專利網。





