[發明專利]基于離線用戶環境和動態獎勵的交互式推薦方法和系統有效
| 申請號: | 202110680280.5 | 申請日: | 2021-06-18 |
| 公開(公告)號: | CN113449183B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 李玉華;饒超;李瑞軒;辜希武 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06N3/04;G06N3/08 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 胡秋萍 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 離線 用戶 環境 動態 獎勵 交互式 推薦 方法 系統 | ||
1.一種基于離線用戶環境和動態獎勵的交互式推薦方法,其特征在于,該方法包括:
準備階段:
一、構建離線用戶環境,將其作為強化學習的環境
S1.構建用戶模型,所述用戶模型包括:GRU和前饋神經網絡,所述GRU用于從用戶t時刻之前的歷史項目記錄中提取到用戶t時刻的狀態ht-1;所述前饋神經網絡,用于根據用戶t時刻的狀態ht-1和用戶t時刻被推薦的項目列表at,計算出用戶t時刻被推薦的項目列表中各項目的獎勵;
S2.利用生成對抗網絡的思想構建損失函數,使得用戶真實項目記錄的獎勵盡可能大,虛假項目記錄的獎勵盡可能小;
S3.使用用戶歷史項目記錄數據集訓練用戶模型,使得損失函數值盡可能小,得到訓練好的用戶模型,將其作為離線用戶環境;
二、構建演員-評論家架構的推薦智能體,將其作為強化學習的智能體;
三、推薦智能體與離線用戶環境不斷進行交互自主學習,以期望在不斷學習過程中獲得最大化的累積獎勵,得到學習好的推薦智能體;所述交互自主學習包含:推薦智能體觀察離線用戶環境的狀態,并根據狀態生成動作用于離線用戶環境,所述動作為生成推薦項目列表;離線用戶環境在推薦智能體生成的推薦項目列表作用下產生狀態轉變,同時給出動態獎勵作為反饋;推薦智能體根據反饋的獎勵調整推薦策略;
應用階段:
將待推薦用戶的狀態輸入至學習好的推薦智能體,得到推薦項目列表。
2.如權利要求1所述的方法,其特征在于,步驟S1中,獲取待推薦領域的各用戶的歷史項目數據,得到項目空間;對于每個用戶的歷史項目數據,首先按照時間進行升序排序,以步長a、窗口N滑動方式截取該用戶歷史項目數據,N個項目數據作為用戶狀態;對于該用戶的每個用戶狀態,將下一個項目作為對應真實目標,從項目空間和該用戶的歷史項目的差集中,隨機選取K-1個項目作為對應虛假目標,K表示推薦列表的長度,真實目標和K-1個虛假目標構成該用戶該狀態的推薦列表;最終得到該用戶的狀態集和推薦列表集,所述狀態和推薦列表一一對應。
3.如權利要求1所述的方法,其特征在于,步驟S2中,給定一個用戶行為軌跡其對應的用戶點擊項目的特征為推薦給用戶但未被選擇的項目記為離線用戶環境的損失函數L(θ)可用公式表示:
其中,rθ表示獎勵函數,θ表示獎勵函數中所有參數,st表示用戶的歷史項目記錄,表示用戶真實項目記錄,表示用戶虛假項目記錄。
4.如權利要求1所述的方法,其特征在于,所述構建演員-評論家架構的推薦智能體,具體如下:
推薦智能體包括:推薦策略網絡和孿生價值網絡;
所述推薦策略網絡,用于觀察離線用戶環境狀態并生成推薦列表動作,傳遞給孿生價值網絡;
所述孿生價值網絡包含:兩個結構相同但參數獨立初始化和訓練的價值網絡,用于根據環境狀態和推薦動作計算Q值,基于較小的Q值計算時間差分目標,進而分別更新推薦策略網絡和孿生價值網絡。
5.如權利要求4所述的方法,其特征在于,推薦策略網絡與離線用戶環境不斷進行交互從而探索策略,并將交互記錄{si,ai,ri,si+1}順序存儲在經驗池中,si表示i時刻的環境狀態,ai表示根據狀態si采取的動作,ri表示動作ai的獎勵,si+1表示由于動作ai的執行環境從si轉移到的下一個狀態,然后在網絡更新時從經驗池隨機均勻采樣,得到采樣結果s,a,r,s′,輸入到推薦策略網絡和孿生價值網絡中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110680280.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:14倍數繞組輸出的Y-△移相變壓器及供配電系統
- 下一篇:一種洗瓶機





