[發明專利]一種基于產品項目特征擴充的最近鄰協同過濾方法有效
| 申請號: | 201610547148.6 | 申請日: | 2016-07-12 |
| 公開(公告)號: | CN106055715B | 公開(公告)日: | 2018-03-09 |
| 發明(設計)人: | 劉業政;宋穎欣;王錦坤;姜元春;孫見山;孫春華 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/06 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司34101 | 代理人: | 陸麗莉,何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 產品 項目 特征 擴充 近鄰 協同 過濾 方法 | ||
1.一種基于產品項目特征擴充的最近鄰協同過濾方法,其特征是按如下步驟進行:
步驟一、用二維表T={U,I,S}表示產品的評分數據;
所述二維表T中,U={U1…,Uu,…,U|u|}表示用戶集合,I={I1…,Ii,…,I|i|}表示產品集合,S={S(1)…,S(s),…,S(|s|)}表示用戶對產品的評分集合;
所述用戶集合U中,|u|為用戶的總數目,Uu表示第u個用戶;1≤u≤|u|;所述產品集合I中,|i|為產品的總數目,Ii表示第i個產品;1≤i≤|i|;所述評分集合S中,S(s)表示所述評分集合中第s個評分,且S(1)<…<S(s)<…<S(|s|);
令第u個用戶Uu對第i個產品Ii的評分為Su,i,且Su,i∈S;
對任意第i個產品Ii和第j個產品Ij;若第u個用戶Uu對所述第i個產品Ii和第j個產品Ij均有評分Su,i和Su,j,則表示第u個用戶Uu為富信息用戶;第u個用戶Uu對第i個產品Ii的評分Su,i和第u個用戶Uu對第j個產品Ij的評分Su,j均稱為富信息用戶評分項;1≤j≤|i|;i≠j;
對任意第i個產品Ii和第j個產品Ij;若第u個用戶Uu僅對所述第i個產品Ii有評分Su,i或僅對第j個產品Ij有評分Su,j,則表示第u個用戶Uu為貧信息用戶;第u個用戶Uu對第i個產品Ii的評分Su,i和第u個用戶Uu對第j個產品Ij的評分Su,j均稱為貧信息用戶評分項;并有:
當第u個用戶Uu僅對所述第j個產品Ij有評分Su,j時,第u個用戶Uu對第i個產品Ii的評分Su,i稱為貧信息用戶評分項中的缺失值;
令所有產品具有的項目特征集合為G={g1…,gn,…,g|n|},gn表示所有產品的第n個項目特征;令貧信息用戶評分項中的缺失值Su,i所代表的第i個產品Ii的項目特征集合為Gi={gi,1…,gi,n,…,gi,|n|};gi,n表示第i個產品Ii在第n個項目特征gn上的特征值;若第i個產品Ii具有第n個項目特征gn,則gi,n=1;否則,gi,n=0;1≤n≤|n|;
步驟二、假設第u個用戶Uu為貧信息用戶;第u個用戶Uu對所述第i個產品Ii的評分Su,i為貧信息用戶評分項中的缺失值;計算貧信息用戶Uu對所述第i個產品Ii與所述第j個產品 Ij的項目相似度simu(Ii,Ij);
步驟2.1、利用式(1)計算獲得貧信息用戶Uu對所述第i個產品Ii的評分項中的缺失值Su,i為S(s)時的先驗概率P(S(s)):
式(1)中,I(u)表示貧信息用戶Uu對所述產品集合I中所有已評分的產品集合;item表示所述已評分產品集合I(u)中的任一產品;|I(u)|表示所述已評分產品集合I(u)中的產品數目;Su,item表示貧信息用戶Uu對所述已評分產品集合I(u)中產品item的評分;
|{item∈I(u)|Su,item=S(s)}|表示貧信息用戶Uu在所述已評分產品集合I(u)中評分Su,item為S(s)的產品數目;
步驟2.2、利用式(2)計算獲得貧信息用戶Uu對所述第i個產品Ii的評分項中的缺失值Su,i為S(s)時的似然函數P(gn|S(s)):
式(2)中,gitem,n表示貧信息用戶Uu對所述已評分產品集合I(u)中的產品item在第n個項目特征gn上的特征值;|{item∈I(u),gi,n=1|Su,item=S(s)∩gitem,n=gi,n}|表示貧信息用戶Uu對所述已評分的產品集合I(u)中的產品item中評分Su,item為S(s),且貧信息用戶Uu對產品item在第n個項目特征gn上的特征值gitem,n與第i個產品Ii在第n個項目特征gn上的特征值gi,n取值均為“1”的項目個數;
步驟2.3、利用式(3)計算獲得貧信息用戶Uu對所述第i個產品Ii的評分Su,i為S(s)時的概率P(S(s)|Ii):
步驟2.4、重復步驟2.1-步驟2.3,從而獲得貧信息用戶Uu對第i個產品Ii的缺失值Su,i分別為S(1)…,S(s),…, S(|s|)時的概率,并將最大概率所對應的評分作為貧信息用戶Uu對第i個產品 Ii的缺失值Su,i的預測評分;
步驟2.5、重復步驟2.4,預測所有貧信息用戶評分項中的缺失值,從而補全所述二維表T中所有貧信息用戶的缺失值;
步驟2.6、基于傳統皮爾森相關系數,利用式(4)得到貧信息用戶Uu對所述第i個產品Ii與所述第j個產品Ij的項目相似度sim′u(Ii,Ij):
式(4)中,表示在補全所有貧信息用戶的缺失值二維表T中,既對所述第i個產品Ii有評分Su,i,又對所述第j個產品Ij有評分Su,j的貧信息用戶Uu;表示在補全所有貧信息用戶的缺失值二維表T中,所有貧信息用戶對第i個產品Ii的平均評分;表示在補全所有貧信息用戶的缺失值二維表T中,所有貧信息用戶對第j個產品Ij的平均評分;
步驟2.7、基于加權皮爾森相關系數,利用式(5)計算得到貧信息用戶Uu對所述第i個產品Ii與所述第j個產品Ij的項目相似度simu(Ii,Ij):
式(5)中,表示既對所述第i個產品Ii的有評分Su,i,又對所述第j個產品Ij有評分Su,j的貧信息用戶數目,λ是待調節參數;
步驟三、假設第v個用戶Uv即為富信息用戶;計算富信息用戶Uv對所述第i個產品Ii與所述第j個產品Ij的項目相似度simv(Ii,Ij);1≤v≤|u|;v≠u;
步驟3.1,基于傳統皮爾森相關系數,利用式(6)得到富信息用戶Uv對所述第i個產品Ii與所述第j個產品Ij的項目相似度sim′v(Ii,Ij):
式(6)中,表示既對所述第i個產品Ii的有評分Sv,i,又對所述第j個產品Ij有評分Sv,j的富信息用戶Uv;表示所有富信息用戶對第i個產品Ii的平均評分;表示所有富信息用戶對第j個產品Ij的平均評分;
步驟3.2、基于加權皮爾森相關系數,利用式(7)計算得到富信息用戶Uv對所述第i個產品Ii與所述第j個產品Ij的項目相似度simv(Ii,Ij):
式(7)中,表示既對所述第i個產品Ii的有評分Sv,i,又對所述第j個產品Ij有評分Sv,j的富信息用戶數目,λ′是另一個待調節參數;
步驟四、利用式(8)進行基于貧信息用戶Uu對所述第i個產品Ii與所述第j個產品Ij的項目相似度simu(Ii,Ij),與富信息用戶Uv對所述第i個產品Ii與所述第j個產品Ij的項目相似度simv(Ii,Ij)的項目相似度融合;得到融合相似度sim(Ii,Ij):
sim(Ii,Ij)=(1-γ)×simu(Ii,Ij)+γ×simv(Ii,Ij) (8)
式(8)中,γ是待調節參數;
步驟五、根據所述融合相似度sim(Ii,Ij),利用基于項目的最近鄰協同過濾算法,獲得未評分產品的所有最終預測評分的降序排序集合;選取所述預測評分的降序排序集合的前N項作為推薦結果,并推薦給所述貧信息用戶Uu。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610547148.6/1.html,轉載請聲明來源鉆瓜專利網。





