[發(fā)明專利]一種協(xié)同過濾推薦算法中改進的相似性度量方法無效
| 申請?zhí)枺?/td> | 201310505323.1 | 申請日: | 2013-10-23 | 
| 公開(公告)號: | CN103500228A | 公開(公告)日: | 2014-01-08 | 
| 發(fā)明(設(shè)計)人: | 趙朋朋;吳健;冒九妹;鮮學(xué)豐;崔志明 | 申請(專利權(quán))人: | 蘇州大學(xué) | 
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 | 
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 常亮 | 
| 地址: | 215123 江蘇*** | 國省代碼: | 江蘇;32 | 
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 協(xié)同 過濾 推薦 算法 改進 相似性 度量 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及推薦系統(tǒng)研究中協(xié)同過濾(Collaborative?filtering)推薦技術(shù),尤其涉及一種協(xié)同過濾推薦算法中改進的相似性度量方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的迅速普及和電子商務(wù)的快速發(fā)展,互聯(lián)網(wǎng)上的信息數(shù)據(jù)急劇增長,如何使用戶快速高效地從浩瀚的數(shù)據(jù)海洋中獲取所需信息變得越來越緊迫。因此為用戶提供主動推薦服務(wù)也越來越多地被應(yīng)用到各種門戶網(wǎng)站和電子商務(wù)系統(tǒng)中。這些系統(tǒng)通過收集用戶的歷史信息,學(xué)習(xí)用戶的興趣和行為模式,并分析用戶的行為特征,從而為其提供推薦服務(wù)。
協(xié)同過濾推薦技術(shù)在推薦系統(tǒng)領(lǐng)域應(yīng)用非常廣泛,主要分為兩類:基于用戶的協(xié)同過濾(User-based?Collaborative?Filtering)和基于項目的協(xié)同過濾(Item-based?Collaborative?Filtering),基本思想是基于最近鄰向目標用戶產(chǎn)生推薦,最終推薦形式有評分預(yù)測及Top-N推薦。Tapestry是最早被提出來的協(xié)同過濾推薦系統(tǒng),記錄了每個用戶閱讀文章的觀點,目標用戶需要明確地指出與自己行為類似的其他用戶。GroupLens、Ringo以及Video?Recommender也是較早期的協(xié)同過濾推薦系統(tǒng),通過其他用戶的意見來給用戶分別提供電影、新聞和音樂等推薦服務(wù)。
隨著電子商務(wù)系統(tǒng)規(guī)模的不斷擴大,用戶數(shù)目和項目數(shù)據(jù)的急劇增加,導(dǎo)致用戶項目的評分數(shù)據(jù)極端稀疏。在用戶評分數(shù)據(jù)極端稀疏的情況下,傳統(tǒng)的相似性度量方法依賴于共同評分的項目個數(shù),使得傳統(tǒng)的相似性度量存在著一定的偶然性,計算得到的目標用戶及項目的最近鄰不準確,從而導(dǎo)致推薦系統(tǒng)的推薦質(zhì)量下降。
協(xié)同過濾推薦算法中主要通過相似性來預(yù)測用戶對項目的評分,相似性可分別依據(jù)用戶或項目之間關(guān)系進行度量,且相似性度量的精確性直接關(guān)系到整個推薦系統(tǒng)的推薦質(zhì)量。
相似性計算可以是基于用戶之間的相似性計算,也可以是基于項目之間的相似性計算。以sim(Ua,Ub)表示用戶Ua和用戶Ub之間的相似性,則首先獲取用戶Ua和用戶Ub已評分的所有項目,然后通過不同的相似性度量方法計算用戶Ua和用戶Ub之間的相似性sim(Ua,Ub)。同理,將項目Ii和項目Ij之間的相似性記為sim(Ii,Ij),則獲取項目Ii和項目Ij已有的所有用戶評分,并根據(jù)已有評分值獲取項目Ii和項目Ij之間的相似性sim(Ii,Ij)。
常見的相似性度量標準包括:余弦相似性、相關(guān)相似性以及修正的余弦相似性。在余弦相似性度量方法中,構(gòu)建用戶項目評分矩陣R(n×m)。如果用戶對項目沒有評分,則假設(shè)該用戶對項目的評分為0。通過將用戶對項目的未知評分設(shè)為0,可以有效地提高相似性計算的性能,但是當用戶及項目數(shù)量非常巨大、用戶對項目的評分數(shù)據(jù)極端稀疏的情況下,將未知評分設(shè)置為0的可信度并不高。
實際上,用戶對未評分項目的喜好程度不可能完全相同或完全不同。當用戶Ua和用戶Ub對項目均未有評分時,將用戶對項目的評分都設(shè)為0,無疑在計算用戶Ua和用戶Ub之間的相似度時提高了其相似度值,因為他們對項目的評分并不一定會完全相同為0。因此,當用戶評分數(shù)據(jù)極端稀疏時,將未知評分設(shè)為0對計算相似度值影響性較高。當用戶Ua和用戶Ub中有一個用戶對項目給出評分,而另一個用戶未給出評分時,未知的評分被設(shè)為0將會使相似度的計算值小于其實際值,但當用戶評分數(shù)據(jù)極端稀疏時,該影響將會較小。
由此可見,在用戶評分數(shù)據(jù)極端稀疏的情況下,余弦相似性并不能有效地度量用戶之間的相似性,余弦相似度的計算值實際上提高了用戶間的相似度,而修正的余弦相似性度量方法也存在同樣的問題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310505323.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 移動通信終端的協(xié)同方法及其界面系統(tǒng)
 - 業(yè)務(wù)協(xié)同流程配置、業(yè)務(wù)協(xié)同方法及裝置
 - 一種基于健康檔案共享平臺的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
 - 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
 - 基于協(xié)同網(wǎng)關(guān)的跨域協(xié)同交互方法
 - 一種生產(chǎn)協(xié)同管理方法及系統(tǒng)
 - 云邊協(xié)同方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
 - 一種智能辦公協(xié)同操作方法及系統(tǒng)
 - 一種用于無人裝備的時間協(xié)同航跡規(guī)劃方法
 - 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)
 





