[發明專利]一種基于訓練集優化的推薦系統的動態推薦方法有效
| 申請號: | 201110356894.4 | 申請日: | 2011-11-11 |
| 公開(公告)號: | CN102508907A | 公開(公告)日: | 2012-06-20 |
| 發明(設計)人: | 歐陽元新;蔣祥濤;羅建輝;熊璋 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 李新華;賈玉忠 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 優化 推薦 系統 動態 方法 | ||
技術領域
本發明涉及用戶推薦系統的技術領域,特別是一種基于訓練集優化的推薦系統的動態推薦方法。
背景技術
個性化推薦服務是以用戶為中心,以理解用戶喜好為基礎,為用戶提供量身定制的個性化信息呈現的服務方式,也是解決從海量互聯網資源中提取用戶所需信息的一種有效途徑。同普通服務模式相比個性化推薦服務有如下特點:首先,個性化推薦服務能夠將用戶從信息超載的困境中解救出來,使得用戶能有機會享受到真正豐富多彩、便捷貼切的人性化網絡信息服務,極大提升用戶體驗和滿意度;其次,個性化推薦服務能夠充分提高Web站點的服務質量和訪問效率,同時還能夠發現用戶潛在的興趣點,從而挖掘出潛在的商業價值,為網絡服務商提供可觀的經濟回報。
自基于協同過濾技術的推薦系統誕生以來,尤其是基于正規化矩陣分解的隱向量推薦模型的提出,個性化推薦技術在理論層面的推薦精度已經有相當高的提升。作為推薦重要依據的原始評分數據對最終的推薦結果有著決定性影響,顯而易見一組具有較高準確度的數據會在最終的推薦中獲得良好的推薦效果。
一般對用戶的個性化推薦服務都是基于已有歷史累積的數據集進行的,這種數據集的數據量是十分龐大的。數據集規模的龐大很難避免在數據的收集中存在不合理的數據,比如用戶的錯評分或者非用戶本人進行替評分等現象。這些數據本身不具有參考性,在對用戶的推薦服務中這些數據是不應采納的。因此,對原始評分數據的處理和甄選會在很大程度上幫助提高推薦精度。在采用較為準確的判斷方法篩選訓練集,并且以此為依據進行推薦模型的建立,那么所獲得的推薦模型會在推薦精度上有更顯著得提升。
發明內容
本發明要解決的技術問題為:克服現有技術的不足,提供一種基于訓練集優化的推薦系統的動態推薦方法,該方法可以通過對作為個性化推薦依據的原始訓練數據進行篩選,并以去除錯誤樣本的新訓練集為依據獲得具有更高精準度的推薦模型,提高了個性化推薦的準確度。
本發明解決上述技術問題的技術方案為:一種基于訓練集優化的推薦系統的動態推薦方法,該方法具體步驟如下:
步驟(1)建立初步推薦模型:根據原始的用戶評分數據,利用基于正規化矩陣因式分解推薦模型中的建模方法生成最初的推薦模型;
步驟(2)AdaBoost訓練:利用步驟(1)中生成的推薦模型作為最初分類判定的依據構建分類器,根據推薦模型計算出的推薦值和原始數據值之間的差異情況判定數據的分類,利用AdaBoost算法學習原始訓練樣本,并在每一輪結束后生成新的分類器;
步驟(3)篩選錯誤樣本:在利用AdaBoost算法的訓練過程中每一輪訓練都需要篩選出難樣本,在本方法中難樣本的劃分可以采用預測值與真實值之間的差異性來判斷,即當這種差異大于某一閾值時即判定為難樣本。經過多輪的AdaBoost訓練之后,多次被選定為難樣本的數據可以當作錯誤樣本去除,從而構建出用于下一次迭代所需的訓練數據集合;
步驟(4)重構推薦模型:以步驟(3)中獲得的訓練數據為基礎,結合AdaBoost訓練數據,重新生成推薦模型。
步驟(5)產生推薦結果:以用戶特征向量作為輸入,利用步驟(4)獲得的推薦模型計算出推薦結果并返回給用戶。
所述步驟(2)中對原始數據集的AdaBoost聚類訓練,具體如下:
步驟①修改正規化矩陣因式分解推薦模型,不再將原始評分數據集合T分割成兩個子集T1、T2,其中,數據集T1用于進行學習,數據集T2用于判定學習停止其中,而是對數據集T中的所有數據均進行學習,設定AdaBoost訓練的迭代輪數I、每輪學習的次數R、允許的錯誤范圍errPermission,并初始化特征向量集;
步驟②在第一輪的迭代中利用正規化矩陣因式分解推薦模型學習訓練數據R次,在訓練得到的特征向量集之上計算訓練數據中對應用戶對項目的評分的估計值并求出其與真實值ru,i的絕對誤差,即絕對誤差
步驟③當步驟②中計算出的AbsE值大于errPermission時判定次數據為難樣本,遍歷全部的訓練數據獲得難樣本的總數errCountn并由下式計算出樣本的錯誤率εn,其中|T|表示訓練集中的樣本個數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110356894.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:汽車儀表配置方法及系統
- 下一篇:自動轉印過程中印刷機滾筒的加速與定相方法





