[發明專利]基于Double DQN算法的產品推薦方法及裝置有效
| 申請號: | 202110452994.0 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113129108B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 王光臣;張衡;張盼盼;王宇;潘宇光 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06Q30/0601 | 分類號: | G06Q30/0601;G06N3/0464;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 double dqn 算法 產品 推薦 方法 裝置 | ||
1.基于Double?DQN算法的產品推薦方法,其特征是,包括:
獲取目標用戶的基本信息;
對目標用戶的基本信息進行處理,提取其特征;
將代表目標用戶基本信息的特征,輸入到訓練后的深度強化學習模型中,得到每個產品的預測滿意度,其中,產品的預測滿意度是指通過Double?DQN算法的最優Q值函數得到的值;
具體地,
在每個時間點t,智能體當前所處的狀態特征為χ(st),此時智能體執行操作at,從環境中得到獎勵rt并觀察到新的狀態特征χ(st+1);
智能體學習的目標是選擇策略π最大化期望總獎勵,定義策略π是在每個時刻t采取的操作at的總集合,即,π={at,at+1,at+2,…aT},其中T是設定的終端時刻;
最大化期望回報即使得未來的累積折扣獎勵最多,即使得:
rt+γrt+1+γ2rt+2+…+γT-trT最大,其中0≤γ≤1為折扣率,
把策略π在狀態特征χ(s)下采取操作a的價值記作:
E[rt+γrt+1+γ2rt+2+…+γT-trT|χ(St)=χ(s),at=a],
其表示根據策略π,從狀態特征χ(s)開始,執行操作a之后,所有可能的決策序列的期望總獎勵;
同時定義最優Q值函數:
Q*(χ(s),a)=maxπQπ(χ(s),a)=maxπE[rt+γrt+1+γ2rt+2+…+γT-trT|χ(st)=χ(s),at=a],
其表示在狀態特征χ(s)下執行操作a之后,按照最優策略去決策的期望總獎勵;
通過迭代的方式來得到每個狀態特征χ(s)下的最優Q值函數Q*(χ(s),a)的過程:
由Bellman公式得到:
Q*(χ(s),a)=E[rt+γmaxa'Q*(χ(s'),a')|χ(st)=χ(s),at=a];
因此,由上式,用函數近似器Q(χ(s),a;θ)來估計Q*(χ(s),a),通過隨機梯度下降法(SGD)迭代θ即可,
其中θ-每k步更新一次,也就是在每k步時更新然后在其他步θ-保持不變;
按照預測滿意度由大到小的順序對產品進行排序,將排序后的產品推薦給目標用戶;
其中,深度強化學習模型,是指Double?DQN算法;
所述將訓練集中用戶基本信息進行預處理,具體包括:
將訓練集中用戶的月平均收入、歷史產品購買次數、歷史產品購買頻率、歷史購買產品的風險等級和價格波動數據,均以N個時間單位進行分割,得到分割后的若干個數據st,下標t表示時間點,以此來記錄該狀態表示的數據的時間區間;
將分割后的同一個時間單位下的所有數據,均通過卷積神經網絡CNN來進行特征提取,得到月平均收入特征、歷史產品購買次數特征、歷史產品購買頻率特征、歷史購買產品的風險等級特征和價格波動數據特征;
將月平均收入特征、歷史產品購買次數特征、歷史產品購買頻率特征、歷史購買產品的風險等級特征和價格波動數據特征進行串聯拼接,得到同一個時間單位對應的狀態特征χ(st),同理,得到所有時間單位下的狀態特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110452994.0/1.html,轉載請聲明來源鉆瓜專利網。





