[發明專利]一種基于三支決策用戶聚類的協同過濾電影推薦方法有效
| 申請號: | 202110238299.4 | 申請日: | 2021-03-04 |
| 公開(公告)號: | CN113032687B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 胡軍;康凱 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/9535;G06F18/23213 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 陳棟梁 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 決策 用戶 協同 過濾 電影 推薦 方法 | ||
1.一種基于三支決策用戶聚類的協同過濾電影推薦方法,其特征在于,包括以下步驟:
數據預處理步驟:將電影的評分數據集使用K-fold交叉驗證法劃分為K組互不相交的訓練集和測試集;
基于三支決策的用戶聚類步驟:聚類流程分為用戶劃分、核心域聚類、邊界域聚類;
搜索近鄰的步驟:對目標用戶所在的簇根據相似度從高到低選取K個鄰居作為近鄰;
評分聚合的步驟:對每個聚類簇計算一個預測評分值,聚合后得到最終預測值,根據預測值進行電影推薦;
基于三支決策的用戶聚類步驟中,聚類簇結構表示為C={C1,C2...,Cm...,Cn},其中全體聚類簇的集合由C表示,并劃分成為n個聚類簇;Cm表示該簇為C中的第m個簇,由核心域和邊界域組成,即Cm={Co(Cm),Fr(Cm)};使用Co(Cm)表示Cm的核心域,核心域的對象完全屬于第m個簇Cm;使用Fr(Cm)表示Cm的邊界域,邊界域的對象部分屬于第m個簇Cm;
基于三支決策的用戶聚類步驟中,用戶劃分的步驟具體包括:1)將全體用戶中評分數量低于某個閾值的用戶劃分到邊界域fringes;2)對全體用戶應用KNN-DPC算法,計算每個用戶的密度值和距離值,并尋找到潛在的密度峰值點center,根據以下規則進行劃分:其中u為待劃分的用戶,cores為核心用戶,fringes為邊界用戶,ρu和δu為用戶u的密度值和距離值;δcenter為密度峰值點的距離值,ρcenter密度峰值點的密度值;
所述核心域聚類步驟具體包括:對核心用戶cores調用K-Means算法,得到初始的聚類結果即為每個簇的核心域Co(Cm);
所述邊界域聚類具體包括:1)計算用戶u的鄰居分布在各個簇的比例,該值也用來度量用戶對邊界域的隸屬度,計算公式為其中P(u|Cm)表示用戶u的鄰居中屬于Cm的比例,Neighbor(u)為目標用戶u的前λ個最近鄰居,v表示目標用戶u的鄰居,Cm為三支用戶聚類算法第二步核心域聚類后的第m個簇,Co(Cm)為Cm的核心域;2)根據P(u|Cm)的值和三支決策閾值α和β對用戶進行劃分,其中α和β滿足1≥αβ≥0,若P(u|Cm)α,則將用戶u劃分到簇Cm的核心域Co(Cm);若β≤P(u|Cm)≤α則將用戶u劃分到簇Cm的邊界域Fr(Cm)。
2.根據權利要求1所述的一種基于三支決策用戶聚類的協同過濾電影推薦方法,其特征在于,所述數據預處理步驟具體包括:實驗數據集應包含用戶id、電影id以及用戶對電影的評分信息,評分由離散數字表示,隨后按照K-fold交叉驗證法將數據隨機劃分為K份,每次取和之前不同的K-1份作為訓練集,剩下的一份作為測試集,進而得到K組訓練測試數據。
3.根據權利要求1所述的一種基于三支決策用戶聚類的協同過濾電影推薦方法,其特征在于,所述搜索近鄰的步驟具體包括:使用皮爾遜相關系數度量用戶的相似度,計算公式為i代表用戶u和v都評論過的電影,ru,i表示用戶u對電影i的評分,表示用戶u的平均評分,rv,i表示用戶v對電影i的評分,表示用戶v的平均評分,Iuv為用戶u和v共同評過的物品集合,同時考慮評分較少的用戶所表達的意見準確性不如評分較多的用戶,對評分數目低于閾值th的用戶相似度進行懲罰,添加懲罰系數后的相似度計算方法如下
其中PC(u,v)為按照上式計算到的用戶u和v之間的皮爾遜相關系數,th由經驗值確定,隨后對目標用戶所在的簇中根據相似度sim(u,v)從高到低選取K個鄰居作為近鄰。
4.根據權利要求3所述的一種基于三支決策用戶聚類的協同過濾電影推薦方法,其特征在于,所述評分聚合的步驟具體包括:基于用戶的協同過濾評分預測常用公式為其中pu,i代表用戶u對物品i的預測評分,是用戶u的平均評分,v是用戶u的近鄰用戶,sim(u,v)代表用戶u和v之間的相似度,rv,i是用戶v對物品i的評分,是用戶v的平均評分,一個用戶可能分配到多個簇中,在每個簇中都可以產生一個預測評分,采取的方法是對每個聚類簇計算一個預測評分值,聚合后得到最終預測值,聚合公式為其中Pu,i為最終預測評分,C(u)代表用戶u所在的所有簇的集合,為按照協同過濾評分預測常用公式計算得到的用戶u在簇Cm中的預測評分,為用戶u在簇Cm的隸屬程度,若用戶u在核心域則取值為1,否則使用P(u|Cm)值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110238299.4/1.html,轉載請聲明來源鉆瓜專利網。





