[發明專利]一種改進的混合協同過濾推薦方法在審
| 申請號: | 201711191113.4 | 申請日: | 2017-11-24 |
| 公開(公告)號: | CN107943948A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 郭雷;包興;陸鵬;胡林聰;馮楠;李祥 | 申請(專利權)人: | 中國科學院電子學研究所蘇州研究院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經緯專利商標代理有限公司32200 | 代理人: | 王銘陸 |
| 地址: | 215123 江蘇省蘇州市工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 混合 協同 過濾 推薦 方法 | ||
技術領域
本發明屬于推薦系統、數據挖掘領域,具體是一種基于用戶和項目相似度質量的混合協同過濾技術。
背景技術
隨著信息化社會的進步的到來,用戶可以獲取的信息數據量越來越龐大,信息過載問題越來越嚴重,如何快速從這些海量信息數據中獲取自己需要的信息成為了大數據時代背景下的熱點話題。推薦算法的出現改變了用戶與信息數據的互動方式:由用戶主動獲取信息轉變為將信息主動推薦給用戶。推薦算法的重點和難點在于如何有效提高信息推薦的精準度。
協同過濾算法是使用最為廣泛的推薦算法,不需要考慮項目的內容,可以更好的推薦一些非結構化的項目。協同過濾推薦算法一般分為數據的預處理、近鄰集合的構建和生成推薦三個步驟,基于用戶協同過濾算法和基于項目協同過濾算法是比較常用的兩種協同過濾算法。數據的預處理主要是將系統采集的用戶對項目的評分數據轉化成便于算法運算的用戶——項目評分矩陣;近鄰集合的構建通過相似度算法計算出用戶之間的相似度和項目之間的相似度,然后按照一定的方法篩選近鄰用戶或者近鄰項目來構建近鄰集合,比較常用的相似度算法有皮爾森相關系數和修正余弦相似度算法,比較常用的篩選方法有Top-K法和閾值法;根據上一步構建的近鄰集合,使用集合成員的相似度對相應的評分信息進行加權來預測用戶對項目的評分情況,進而根據預測的評分生成推薦。
目前,協同過濾算法依然存在著以下幾個方面的問題:
(1)數據稀疏性問題。在評分矩陣稀疏的情況下,算法很難準確找出目標用戶或者目標項目的近鄰成員,在構建近鄰集合時會導致部分信息丟失,從而使后續的評分預測產生偏差導致推薦質量下降。
(2)冷啟動問題。當新的項目出現時,沒有用戶對其進行評價,傳統的協同過濾算法無法對其進行評分預測和推薦;同理,當新的用戶出現時,因其沒有對任何項目做出評價,算法也無法向該用戶推薦項目。
(3)算法缺陷。傳統的相似度計算方式沒有考慮到共同評分項數量差異對近鄰集合構建的影響;同時,單一的協同過濾算法只能考慮到用戶信息的交互或者項目信息的交互,忽略了兩者之間的交互對評分預測的影響,無法同時兼顧精準性和個性化。
發明內容
本發明提供了一種應對評分數據高度稀疏的加權型混合協同過濾算法,緩解了數據稀疏性的影響,提高了推薦的精準度,同時彌補了兩種單一協同過濾算法無法兼顧準確率和個性化的缺陷。
本發明采用的技術方案是:
一種改進的混合協同過濾推薦方法,具體包含模型訓練和推薦預測兩個部分;
其中,模型訓練具體包含如下步驟:
步驟1,數據集中含有m個用戶和n個項目,其中,m和n為正整數;
步驟2,操作測試集,以固定間隔設置近鄰個數K的值,K為正整數,計算用戶之間以及項目之間的相似度,分別構建用戶u和項目i的近鄰集合N(u)和N(i),并計算近鄰集合的相似度質量βu和βi;
步驟3,操作測試集,計算兩種單一協同過濾的預測值,以固定間隔設置控制因子i的值,其中,ω∈[0,1],獲取混合模型的預測結果;
步驟4:迭代步驟2和步驟3獲取預測結果與測試集實際評分的平均絕對誤差MAE,對比得出控制因子ω的最優值以及完整的推薦模型;
其中,推薦預測具體包含如下步驟:
步驟5,直接對完整的數據集進行操作,設置K的值,構建目標用戶和目標用戶未交互項目的近鄰集合,并度量這些近鄰集合的相似度質量;
步驟6,設置控制因子ω的最優值,代入混合模型得出目標用戶對待測項目的預測評分;
步驟7,對所有待測項目評分預測完畢后,將預測評分進行排序,選出對應評分最高的N個項目推薦給目標用戶。
作為本發明一種改進的混合協同過濾推薦方法的進一步優選方案,從在步驟1中,數據集中隨機抽取80%作為訓練集,剩余20%作為測試集,并轉化成評分矩陣Rm×n。
作為本發明一種改進的混合協同過濾推薦方法的進一步優選方案,在步驟4中,以0.1的間隔對比得出控制因子ω的最優值。
作為本發明一種改進的混合協同過濾推薦方法的進一步優選方案,在步驟4中,Ωω=0.4。
作為本發明一種改進的混合協同過濾推薦方法的進一步優選方案,在步驟2中,近鄰集合的相似度質量βu具體計算如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院電子學研究所蘇州研究院,未經中國科學院電子學研究所蘇州研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711191113.4/2.html,轉載請聲明來源鉆瓜專利網。





