[發(fā)明專利]一種基于項目層次類別的協(xié)同過濾推薦方法有效
| 申請?zhí)枺?/td> | 201310290988.5 | 申請日: | 2013-07-11 |
| 公開(公告)號: | CN103514255A | 公開(公告)日: | 2014-01-15 |
| 發(fā)明(設計)人: | 唐震;陳立全;朱瑤 | 申請(專利權(quán))人: | 江蘇諧云智能科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 常州佰業(yè)騰飛專利代理事務所(普通合伙) 32231 | 代理人: | 金輝 |
| 地址: | 213164 江蘇省常州*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 項目 層次 類別 協(xié)同 過濾 推薦 方法 | ||
技術(shù)領域
本發(fā)明提出一種基于項目層次類別的協(xié)同過濾推薦方法,屬于計算機數(shù)據(jù)挖掘推薦技術(shù)領域。
背景技術(shù)
隨著?Web2.0?的發(fā)展,電子商務網(wǎng)站更加側(cè)重于用戶參與度和用戶貢獻。伴隨著用戶頻繁地訪問Web站點,系統(tǒng)通常會生成大量的用戶數(shù)據(jù),這些數(shù)據(jù)記錄著用戶的行為。基于這些用戶行為的推薦方法是個性化推薦系統(tǒng)的重要方法,學術(shù)界一般將這種類型的方法稱為協(xié)同過濾推薦方法。
協(xié)同過濾方法的原理是根據(jù)用戶對項目的偏好,發(fā)現(xiàn)用戶之間的相關性,或者是發(fā)現(xiàn)項目之間的相關性,然后再基于這些相關性進行推薦。可見,基于協(xié)同過濾的推薦引擎的核心功能在于計算兩個用戶或兩個項目之間的相似程度,這種相似程度將用于后續(xù)的推薦。整個方法基于這樣一個假設:喜歡類似項目的用戶可能有相同或者相似的口味和偏好。
協(xié)同過濾方法最大的優(yōu)點在于能夠挖掘出用戶的潛在興趣,給出更好的推薦效果。當輸入推薦引擎的用戶和項目數(shù)據(jù)比較完善時,協(xié)同過濾方法通常會表現(xiàn)出比較優(yōu)的推薦性能,但是,隨著網(wǎng)站內(nèi)容的逐漸復雜、網(wǎng)站使用人數(shù)的不斷增加,該方法逐漸暴露出難以克服的缺點,例如用戶項目矩陣稀疏性問題。
稀疏性問題指系統(tǒng)的用戶-項目評分矩陣稀疏,這是由于系統(tǒng)中用戶購買項目的總數(shù)量占網(wǎng)站總項目量的比率極低的原因造成的。這種數(shù)據(jù)量大但極為稀疏的情況,給準確地定位最近鄰居集帶來了極大的困難。例如,兩個同類型項目可能由于矩陣的稀疏造成用戶集沒有重疊,造成它們不能被正確地識別為鄰居項目。
對于矩陣過于稀疏的問題,有兩種基本的解決方案。一種是降低矩陣的維度,這個在當前系統(tǒng)大數(shù)據(jù)量的發(fā)展趨勢下不適用;另一種方案就是用特定的值填充矩陣,降低矩陣的稀疏程度,但實現(xiàn)上效果不好。本發(fā)明通過對傳統(tǒng)的基于項目的協(xié)同過濾方法的改進,降低稀疏的用戶-項目評分矩陣對于相似度精度的影響。
本發(fā)明綜合考慮項目類別因素,并將其加入到相似度計算及評分計算中,提高推薦精確度。具體的做法是根據(jù)系統(tǒng)中用戶-項目評分情況數(shù)據(jù)集,用關聯(lián)規(guī)則推導出用戶對系統(tǒng)中每個項目類別的偏好,將這一屬性納入項目相似度公式進行計算,降低相似度為0的概率,給出更貼近用戶真實需求的推薦。
詳細地說,本發(fā)明的項目類別評分有兩個關鍵步驟,首先,需要采用一定計算邏輯得到用戶對已知類別的評分,下一步是對未知項目類別評分進行推導。在未知項目類別評分推導方面,由于用戶此前沒有對這個類別進行任何訪問,那么這個評分就不能從用戶的歷史行為中獲取到,可以考慮的途徑之一是通過系統(tǒng)內(nèi)整體數(shù)據(jù)集推測用戶對這個類別的評分。推導過程基于這樣一個考慮:如果兩個類別的項目經(jīng)常被一起購買,那么這兩個類別或者是屬于同一個父類類別,或者是相輔相成的兩個類別。對于前一種情況,這兩個類別之間的相似度很高,用戶完全有可能同時喜歡這兩個類別的項目,比如服飾類的兩個子類別:上裝和下裝。對于后一種情況,目標用戶可能也需要另外一種類別的項目,例如咖啡和砂糖。所以,需根據(jù)此對每兩個項目類別賦予一個相似性權(quán)重,結(jié)合用戶已經(jīng)評分的項目類別進行加權(quán)平均,這樣就可以推測出用戶對這個類別的喜愛程度。
衡量經(jīng)常同時出現(xiàn)的兩個項目,需使用到關聯(lián)規(guī)則中頻繁模式的概念。頻繁地出現(xiàn)在系統(tǒng)數(shù)據(jù)集中的模式(如項集、子序列或子結(jié)構(gòu))就是頻繁模式,例如,頻繁地同時出現(xiàn)在交易數(shù)據(jù)集中的兩個項目類別就是頻繁模式。通過對系統(tǒng)中業(yè)務數(shù)據(jù)的分析,可以得到反映項目頻繁同時購買的購買模式。這些模式可以用關聯(lián)規(guī)則的形式表示。關聯(lián)規(guī)則的支持度(?support?)和置信度(?confidence?)是規(guī)則興趣度的兩種約束條件,這兩個度量條件分別反映了所發(fā)現(xiàn)的規(guī)則的有用性和確定性。關聯(lián)規(guī)則的支持度為2%意味著所分析的所有事務中,2%同時購買了項目1和項目2,置信度60%意味著購買項目1的用戶中有60%同時購買了項目2。同時大于最小支持度閾值(?min_sup?)以及最小置信度閾值(?min_conf?)的規(guī)則稱為強關聯(lián)規(guī)則,關聯(lián)規(guī)則反映了一個事件和其他事件之間依賴或關聯(lián)的知識。
在本發(fā)明中,滿足強關聯(lián)規(guī)則的兩個項目類別會被識別為經(jīng)常一起出現(xiàn)的項目類別。計算過程中對不同的關聯(lián)情況,為兩兩項目類別賦予合適的相似度系數(shù),用于預測未購買項目類別的評分。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于江蘇諧云智能科技有限公司,未經(jīng)江蘇諧云智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310290988.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





