[發明專利]一種強化學習優化LFM的協同過濾推薦算法在審
| 申請號: | 202110143465.2 | 申請日: | 2021-02-02 |
| 公開(公告)號: | CN112948707A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 沈學利;吳彤彤 | 申請(專利權)人: | 遼寧工程技術大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06K9/62 |
| 代理公司: | 北京華夏正合知識產權代理事務所(普通合伙) 11017 | 代理人: | 韓登營;韓惠琴 |
| 地址: | 123000 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 強化 學習 優化 lfm 協同 過濾 推薦 算法 | ||
1.一種強化學習優化LFM的協同過濾推薦算法,其特征在于,包括訓練與預測兩部分;
所述訓練部分主要包括兩步:
第一步,首先采用隱語義模型LFM對訓練集進行訓練,以得到LFM推薦模型;
第二步,對強化學習模型進行訓練,利用馬爾科夫決策過程獎懲函數式計算狀態轉移的獎懲值,完成強化學習Q表的更新,以用于LFM推薦評分的優化模型;
所述預測部分主要包括兩步:
第一步,首先根據LFM推薦模型得到預測評分值;
第二步,通過將LFM推薦算法得到的預測評分進一步采用馬爾科夫決策過程中的獎賞函數進行優化,建立推薦預測評分與馬爾科夫決策過程之間的映射關系,并用強化學習Q-learning算法進行模型訓練,以優化預測過程得到最終的預測評分。
2.如權利要求1所述的強化學習優化LFM的協同過濾推薦算法,其特征在于,所述LFM推薦模型的公式為:
其中兩個低秩矩陣分別為user-class矩陣class-item矩陣;RUI表示預測評分;PU,K表示指用戶對某一特定類別的偏好程度;QK,i表示指某一圖書在特定類別中所占的權重。
3.如權利要求1所述的強化學習優化LFM的協同過濾推薦算法,其特征在于,所述馬爾科夫決策過程由一個五元組S,A,P,γ,Rew表示,其中S表示狀態空間,A表示動作空間,P表示狀態轉移概率,γ表示折扣因子,Rew表示回報函數,智能體感知當前環境中的狀態信息,根據當前狀態選擇執行某些動作,環境根據選擇的動作給智能體反饋一個獎懲信號,根據這個獎懲信號,智能體就從一個狀態轉移到了下一個狀態。
4.如權利要求1所述的強化學習優化LFM的協同過濾推薦算法,其特征在于,所述推薦預測評分與馬爾科夫決策過程之間的映射關系為:
(1)狀態空間S:將用戶u在時間t下對圖書的評分記為狀態因為數據集中用戶對圖書的評分是[1,5]區間的5個整數,所以的范圍為[1,5],所有時間下的狀態構成了狀態空間S;
(2)動作空間A:用戶u在時間t下看了圖書并給出了評分該評分會影響其t+1時間對圖書的評分所以將記為從到的動作,該過程如下:
所有時刻的動作構成了動作空間A;
狀態轉移概率P:用戶u在狀態下采取動作是由時間影響決定,動作一旦確定,則下一個狀態也同時確定了,所以狀態之間的轉移概率也可以確定為即P=1,動作的范圍為[1,5];
折扣因子γ:在模型中,每次動作會產生對應的獎勵,但是同一用戶觀看圖書的時間遠近對選擇下一步擬觀看圖書的影響也會不同,折扣因子就是反映該影響的一個因子,設置為0≤γ1;
獎懲函數Rew:獎懲函數表征了一個狀態中完成某個動作所獲得的獎勵,獎懲函數值Rew如下:
其中:為時間t+2時用戶u對圖書的評分RUI表示用隱語義模型LFM算法計算出的用戶u對圖書i的預測評分;Rew表示用戶u在狀態下采取動作所獲得的獎懲值,根據獎懲函數可得到對應的獎懲表。
5.如權利要求1所述的強化學習優化LFM的協同過濾推薦算法,其特征在于,所述優化模型對預測評分進行優化,所述優化模型如下:
其中,RUI表示用LFM推薦模型計算得到的用戶u對第i個圖書的預測評分,sut-2為用戶u在看圖書i之前時間t-2看圖書的評分,aut-2為時間t-1看圖書的評分為時間,為坐標下Q表的值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于遼寧工程技術大學,未經遼寧工程技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110143465.2/1.html,轉載請聲明來源鉆瓜專利網。





