[發明專利]一種基于多維分類強化學習的動態推薦系統設計方法有效
| 申請號: | 201811329913.2 | 申請日: | 2018-11-09 |
| 公開(公告)號: | CN109543840B | 公開(公告)日: | 2023-01-10 |
| 發明(設計)人: | 李祥明;李翔;楊杰;葉能;雒江濤;王夢;周欣 | 申請(專利權)人: | 北京理工大學;重慶郵電大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 王民盛 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多維 分類 強化 學習 動態 推薦 系統 設計 方法 | ||
本發明涉及一種基于多維分類強化學習的動態推薦系統設計方法,屬于強化學習以及推薦技術領域。包括:步驟1服務器根據所推薦物品的固有屬性對所有物品進行分類,并對所有物品執行熱度統計,更新熱度代表物品;步驟2用戶向服務器發送請求,請求服務器推薦物品;步驟3計算用戶活躍度與網絡權重并存儲;步驟4服務器根據用戶活躍度判斷是否跳至步驟5;步驟5服務器依據Actor神經網絡和現有的用戶狀態向量,對用戶進行物品推薦;步驟6若用戶對服務器推薦物品進行反饋則對用戶狀態進行更新,回到步驟3;否則無動作。本發明更加客觀地反映用戶物品間的聯系與用戶興趣的變化;通過用戶活躍度和用戶登記的靜態信息增強了推薦的精準度。
技術領域
本發明涉及一種基于多維分類強化學習的動態推薦系統設計方法,屬于強化學習以及推薦技術領域。
背景技術
近年來,互聯網的發展帶來了信息量的爆炸增長。在搜索引擎、電子商務以及新聞推送等等應用場景中,為了使用戶能夠在短時間內看到感興趣的信息,推薦系統扮演了越來越重要的角色。傳統的推薦系統主要采用:基于協同過濾的方法、基于內容的方法以及混合方法等;近年來,作為傳統方法的延伸,深度學習模型被引入。這些模型被認為可以更好地建模用戶與物品之間的聯系,盡管相比于傳統算法有所提升,但是仍存在以下不足:
1.推薦系統的用戶實時交互無法及時利用。主要的推薦系統算法把推薦看作一個靜態過程并根據固定的策略進行推薦,這樣就忽略了實時交互的作用。實際的推薦系統中,物品特征與用戶畫像的對應往往具有一定的主觀性,并不能正確的發掘二者之間的聯系,因此動態推薦系統中用戶的實時反應對了解用戶與物品關系至關重要。
2.推薦系統的動態特性沒有被很好地解決。一方面,部分應用場景中物品具有很強的時效性,如網頁新聞、熱點關注等等,其出現無法預測,而其時效性結束又無法建模,在對這些內容進行推薦時,必須采取一定措施避免推薦過期內容;另一方面,用戶的興趣也會隨時間變化,銷售平臺中,他們對于特定物品的關注往往會隨時間改變,理財產品中,用戶的資本也會起伏不定,這些場景要求我們建模用戶的活躍度以實現更加貼近用戶的個性化推薦。
針對如上問題,當前主要有以下幾種采用馬爾可夫決策過程(MDP)模型和強化學習的解決方案。
現有基于MDP的推薦系統把用戶的反饋描述為未來獎賞,并通過一種n點預測模型來初始化馬爾可夫決策過程。這一解決方案把針對單個物品的推薦描述為動作空間中的一點帶來了動作空間過大的問題。
建立在MDP推薦系統思路上,通過雙聚類的方法把推薦系統中的狀態空間建模成一個n×n的二維網格圖,并以“上-下-左-右”來描述四個不同動作,每個格子的坐標s=(u,i)代表一個用戶集合和一個物品集合。這樣做的好處是大大減少了動作空間的復雜度,但是簡單的雙聚類難以描述物品的高維特征,因此也不足以解釋用戶和物品的匹配問題。
還有文獻在理論上證明了用戶在網絡購物中的搜索與篩選過程可以描述為馬爾可夫決策過程并給出了基于強化學習解決排名問題(Learning To Rank)的方法以最大化累計獎賞,但是這一方案中仍缺乏對于物品特征的利用,在物品數量極大的情況下進行推薦時有所局限。
此外,一種離線與在線結合的新聞推薦方法:離線過程采用Deep Q-learning,依據歷史數據學習對于未來獎賞的預測;在線過程主要通過用戶的點擊反饋更新值函數以獲得更好的策略。在此模型中,用戶特征和背景特征被描述為狀態空間,而新聞特征和用戶-新聞特征描述為動作空間,同時生存模型被用來建模用戶整體活躍度。相比于前幾篇文獻,這一思路更具有一般性,但是也忽略了物品的分類的高維特征。
總的來說,現有基于強化學習結構的推薦系統大多沒有有效建模物品的特征屬性,故在動態推薦的過程中缺乏針對性與代表性。目前缺乏一種推薦系統的整體設計能夠合理利用物品特征并同時解決如上所述的兩個主要問題。而實際在新聞、理財產品、快速更新的商品的推薦中,需要一種更加具有普適性的設計以滿足這些要求。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學;重慶郵電大學,未經北京理工大學;重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811329913.2/2.html,轉載請聲明來源鉆瓜專利網。





