[發明專利]基于鄰域的top?k推薦方法有效
| 申請號: | 201210130111.5 | 申請日: | 2012-04-27 |
| 公開(公告)號: | CN103377250B | 公開(公告)日: | 2017-08-04 |
| 發明(設計)人: | 楊希旺;陳飛飛 | 申請(專利權)人: | 杭州載言網絡技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/02 |
| 代理公司: | 浙江杭州金通專利事務所有限公司33100 | 代理人: | 徐關壽 |
| 地址: | 310007 浙江省杭*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 鄰域 top 推薦 方法 | ||
技術領域
本發明屬于計算機技術領域,涉及由計算機完成的個性化推薦技術,具體的說是一種基于鄰域的top-k推薦方法。
背景技術
個性化推薦在我們的日常生活當中變得越來越重要,特別是web2.0的出現帶來了海量的數據。精確的推薦能夠幫助用戶容易的找到相關的產品而省去了用戶在海量數據中找尋的時間。現在的電子商務廠商和以互聯網廣告為收入的公司都在智能化的個性推薦上面投入大量的人力、物力。從上世紀90年代中開始,個性化推薦鄰域變成了一個十分重要的科研鄰域。推薦系統中最常用的方法是協同濾波方法-只依賴于用戶的歷史行為記錄比如用戶的交易記錄、打分記錄,而不必去創建一個明確的用戶興趣資料。當收集到一定量的用戶數據后,比如Netflix的用戶電影打分記錄,協同濾波成為了最受歡迎的也是最精確的方法。值得注意的是,協同濾波不需要行業知識,不需要去分析被推薦對象的內容信息。而且,協同濾波依賴于用戶的行為有助于揭示復雜的、不易被預期到的行為模式。這些是通過已知的數據屬性無法做到的。隨著社交網絡的興起,社會化過濾也成為一個重要的推薦方法,其主要思想就是把社交網絡內興趣相類似的用戶喜歡的東西推薦給目標用戶。
基于鄰域top-k推薦和基于模型的top-k推薦是當下協同濾波中最流行的兩類推薦方法,基于鄰域的推薦方法擅長于利用關系比較相近的用戶群進行預測,而基于模型的推薦方法能更好的利用一個用戶的所有的打分記錄。當新的產品加入系統后,基于鄰域的方法能夠及時的利用少量的打分信息給目標用戶進行推薦,而基于模型的方法需要重新進行模型訓練才能得到該產品的特征向量從而才能對此產品進行推薦。
到目前為止,社交網絡內的推薦模型主要有三種,但他們都是集中在優化RMSE(均方根誤差)。首先數據(用戶對產品的打分、購買或點擊數據)被隨機切分成訓練數據集(trainingset)和測試數據集(testset),訓練數據集用來訓練模型,測試數據集用來測試模型的精度。RMSE定義為:但是對于實際的商用推薦系統來講,根據用戶的歷史行為來預測用戶以后會感興趣的內容、產品更有實際意義。
系統每次給用戶推薦k(一般比較小)個可能感興趣的產品。這種優化RMSE的技術已經趨于成熟。
對每個用戶u,首先跟據推薦模型來給每個未打分的產品進行預測打分,然后根據預測的分值將產品進行從高到低的排序。注意,預測的打分值是個連續值,所以排序一般是唯一的。如果碰到兩個相同的分值,則這兩個產品先后排序隨機。定義相關產品為用戶喜歡的產品,一般設個閾值,打分(用戶的實際打分)高于此值的就認為是相關產品。舉個例子,在Epinions數據里,我們把打分為5的產品定義為相關產品,打分小于5的或是打分缺失的定義為不相關。Top-k命中率定義為測試數據集里相關產品出現在top-k推薦列表上的比例。定義用戶u的測試數據集里的所有相關產品數目為N(u),定義用戶測試數據集里的相關產品出現在top-k列表的數目為N(k,u)。用戶u的top-k命中率為:所有用戶的top-k命中率為:對所有用戶的求和。
一種典型的在社交網絡內做top-k推薦的方法是基于最近鄰域的方法。首先給目標用戶x找到相似的用戶群,然后通過該用戶群預測用戶x對候選產品的打分,根據預測打分的分值將候選產品進行排序,推薦排名最高的k個產品給目標用戶x。
這種方法的缺點是沒有考慮到隱性反饋(缺失的打分)的信息。比如現在給目標用戶x選定了一個大小為100的用戶群,現在有兩件產品i,j:用戶群中只有一人對產品i有打分為5,其他人沒打分。而對產品j而言,用戶群中有99人對其打分為5,1人打分為4。如果用加權平均來預測用戶x對產品i,j的打分,而所以預測結果是用戶在產品i,j中更喜歡產品i。而實際上明顯用戶更喜歡產品j的可能性要很大。
基于鄰域的推薦方法的核心是如何給目標用戶找到相似的用戶群。常用的方法有三種:
方法一:每個用戶歷史行為用一個行向量表示,向量第i個值表示對第i個對象的打分值(如果是點擊記錄,1表示點擊了,0表示沒有),通過計算用戶的打分記錄向量計算用戶間的Pearson相似度或計算Cosine相似度在全體用戶中找到跟目標用戶最接近的N1個用戶,標記該用戶群為
方法二:通過社交網絡過濾的方法可以找到在社交網絡內最相近的N2個用戶,標記該用戶群為常用的方法有廣度優先搜索、信任值推理和隨機走動模型。
方法三:混合方法一、方法二的用戶群,得到一個混合用戶群。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州載言網絡技術有限公司,未經杭州載言網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210130111.5/2.html,轉載請聲明來源鉆瓜專利網。





