[發明專利]一種基于深度強化學習的推薦系統構建方法有效
| 申請號: | 202011473950.8 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112612948B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 石龍翔;金蒼宏;李卓蓉;吳明暉 | 申請(專利權)人: | 浙大城市學院 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F30/27;G06K9/62;G06N3/04;G06N3/08;G06Q10/06 |
| 代理公司: | 浙江杭州金通專利事務所有限公司 33100 | 代理人: | 劉曉春 |
| 地址: | 310000 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 推薦 系統 構建 方法 | ||
本發明提供一種基于深度強化學習的推薦系統構建方法,包括如下步驟:S1)建立用戶與推薦系統交互的特征表征集合;S2)建立用戶與推薦系統交互的狀態表征;S3)推薦系統的建模;S4)推薦系統的訓練;S5)推薦系統的部署。本發明的優點為:通過把一維離散型項目的動作選擇空間映射到多維連續實值空間,采用進制轉換的方法對推薦條目的動作空間進行簡化,降低推薦系統訓練的難度;采用卷積遞歸神經網絡對用戶的行為特征進行建模,提高了推薦系統的性能。
技術領域
本發明涉及推薦系統技術領域,具體涉及一種基于深度強化學習的推薦系統構建方法。
背景技術
推薦系統是智能電子商務系統中不可或缺的一部分,通過用戶的歷史瀏覽數據向用戶推薦可能所需的項目是其主要任務。常用的推薦系統方法有協同過濾、矩陣分解和基于內容的排序等。然而,這些常用的推薦方法往往把用戶的偏好建模為一個靜態的過程,通過一些貪婪的排序方法向用戶進行推薦,不能考慮用戶偏好的動態變化。最近的一些研究表明,將推薦系統建模為一個強化學習問題,通過最大化用戶未來可能給出的總評分作為優化目標,可以有效地對用戶的偏好進行動態建模,提升推薦系統的表現與性能。
然而,由于推薦系統自身存在的一些特點,采用強化學習方法進行推薦系統構建的過程中,常常面臨著如下兩個問題:1)推薦系統中推薦的項目數往往巨大,用強化學習來解決時,需要考慮這種巨大的動作空間問題帶來的優化困難;2)對用戶觀測到的狀態建模,在用戶與推薦系統交互的過程中,會產生用戶反饋的時序信息,如何將這種時序信息提取并建模用戶的狀態、描述用戶的行為特征,是關乎推薦系統性能的一個關鍵問題。
發明內容
本發明的目的是提供一種通過把一維離散型項目的動作選擇空間映射到多維連續實值空間從而有效簡化動作空間、并采用卷積遞歸神經網絡對用戶的行為特征進行建模來提高推薦系統性能的基于深度強化學習的推薦系統構建方法。
為了達到上述目的,本發明通過以下技術方案來實現:
一種基于深度強化學習的推薦系統構建方法,包括如下步驟:
S1)建立用戶與推薦系統交互的特征表征集合
用戶與推薦系統交互的過程采用馬爾可夫決策過程S,A,P,R表示,其中,S為狀態集合,即用戶與推薦系統交互的特征表征集合,A為用戶可選擇的項目集合,在t時刻下選擇的項目記為at,P(st+1|st,at)為狀態轉移函數,即當前時刻狀態st下用戶選擇項目at后下一時刻狀態st+1的概率,R(st+1|st,at)為回報函數,即用戶對當前狀態st選擇項目at后用戶的評分,推薦系統的優化目標是最大化用戶的期望總評分,即
其中,T為終止時刻;
S2)建立用戶與推薦系統交互的狀態表征
根據所有用戶的歷史記錄,建立U行M列的用戶評分矩陣,其中,U為用戶的總數,M為推薦項目的總數,評分矩陣的第i行第j列表示第i個用戶對第j個項目的評分,如果用戶沒有評價過該項目則評分設為0,用該矩陣的每一列作為每個推薦項目的特征;
根據每個用戶與推薦系統交互過程中的歷史記錄(包括用戶選擇的條目以及用戶的評分),抽取當前時刻之前所有的選擇條目和評分,輸入到卷積神經網絡中,接下來采用卷積層對所有LSTM(時間循環神經網絡)單元的輸出進行處理,并采用最大值池化與均值池化處理卷積層的輸出,作為用戶與推薦系統交互的狀態表征;
其中,表征用戶狀態的神經網絡參數可以通過步驟S4)的訓練過程進行學習;
S3)推薦系統的建模
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙大城市學院,未經浙大城市學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011473950.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種紫菜烘干循環裝置
- 下一篇:熱圖像的生成方法、裝置和熱成像設備





