[發明專利]一種基于社會化標簽的協同過濾方法無效
| 申請號: | 201010185859.6 | 申請日: | 2010-05-28 |
| 公開(公告)號: | CN101853470A | 公開(公告)日: | 2010-10-06 |
| 發明(設計)人: | 邵健;張寅;姚璐;蔡瑞瑜 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00;G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 張法高 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社會化 標簽 協同 過濾 方法 | ||
技術領域
本發明涉及個性化推薦領域,尤其涉及一種基于社會化標簽的協同過濾方法。
背景技術
隨著網絡和多媒體技術的迅猛發展,互聯網上的圖像數量呈爆炸性增長。據統計,2008年,Google已索引Web網頁規模達到1萬億,其中圖像數據超過幾十億張。海量信息的同時呈現,一方面使用戶很難從中發現自己感興趣的部分,另一方面也使得大量少有人問津的信息成為網絡中的“暗信息”,無法被一般用戶獲取。個性化推薦系統通過建立用戶與信息產品之間的二元關系,利用已有的選擇過程或相似性關系挖掘用戶潛在感興趣的對象,進而進行推薦,其本質就是信息過濾。個性化推薦系統不僅在社會經濟中具有重要的應用價值,而且也是一個非常值得研究的科學問題。事實上,它是目前解決信息過載問題最有效的工具之一。
協同過濾推薦(collaborative?filtering?recommendation)技術是推薦系統中最為成功的技術之一,已被廣泛的應用于電影推薦(Netflix)、圖書推薦(Amazon)等領域。與傳統的基于內容過濾直接分析內容進行推薦不同,協同過濾分析用戶興趣,在用戶群中找到與指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統對該指定用戶對此信息的喜好程度預測。然而,雖然有著廣泛的研究與應用,協同過濾技術仍然難以克服數據稀疏性問題,即在現有推薦系統中,用戶往往只評價過極小一部分物品,這樣使得基于用戶的評價所得到的用戶間的相似性可能不準確。稀疏性的問題具體表現在如下兩個方面:
1)冷起動問題(cold?start),即當新的用戶或新的物品加入到推薦系統時,由于缺少評價信息,不能為其找到相似的用戶或相似的物品,從而無法進行推薦。
2)相似傳遞性問題(Neighbor?transitivity),即用戶A與B有相似偏好,用戶B和C也有相似偏好,那么A與C也可能有相似偏好,即使A與C沒有評價過相同的物品。因此傳統的協同過濾推薦算法無法挖掘出潛在的相似用戶或相似物品。
為了解決以上缺點,我們提出1)使用社會化標簽提供的語義信息來挖掘物品的相似性,從而緩解因缺少用戶評分信息而無法精確計算物品相似度的瓶頸;2)使用基于圖模型的隨機游走(Random?walk)算法來解決相似傳遞性問題。
更進一步,由于社會化標簽由用戶產生,這些標簽總數量很大,而其中難免出現錯誤與噪音,同時,每個用戶習慣用很少的一部分標簽來標注物品,使得物品的語義不能被標簽充分的表達。為了解決這個問題,我們提出一種基于lasso?logistic?regression的模型通過關聯語義相似的標簽,使得物品的語義可被更加全面和準確的表達。
發明內容
本發明的目的是克服現有推薦技術的不足,提供一種基于社會化標簽的協同過濾方法。
基于社會化標簽的協同過濾方法包括如下步驟:
1)首先使用三部圖對用戶、物品、社會化標簽這三種不同結點進行建模,并應用隨機游走算法為每個用戶個性化推薦top-N個物品;
2)使用lasso?logistic?regression模型去對物品進行標簽的擴展,即對每個物品,增加與其語義相關的標簽,并且除去那些有噪音的標簽,以解決社會化標簽中存在的噪音和稀疏性問題,即物品通常只有很少一部分標簽標注;
3)調節標簽在推薦過程中的權重。
所述的通過三部圖對用戶、物品以及標簽建模并應用隨機游走算法為每個用戶推薦物品的步驟為:
1)使用三部圖建模,則該三部圖可表示為:G={U,I,T,E},其中U、I、T分別表示用戶、物品、標簽,E表示它們之間的關系,則該三部圖可以如下鄰接矩陣表示為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010185859.6/2.html,轉載請聲明來源鉆瓜專利網。





