日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專(zhuān)利]一種帶負(fù)反饋的基于深度強(qiáng)化學(xué)習(xí)的推薦方法及系統(tǒng)有效

專(zhuān)利信息
申請(qǐng)?zhí)枺?/td> 202010328640.0 申請(qǐng)日: 2020-04-23
公開(kāi)(公告)號(hào): CN111523940B 公開(kāi)(公告)日: 2023-04-18
發(fā)明(設(shè)計(jì))人: 李玉華;李鑫;李瑞軒;辜希武 申請(qǐng)(專(zhuān)利權(quán))人: 華中科技大學(xué)
主分類(lèi)號(hào): G06Q30/0601 分類(lèi)號(hào): G06Q30/0601;G06N7/01;G06N3/0442;G06N3/045;G06N3/048;G06N3/084;G06N3/092
代理公司: 華中科技大學(xué)專(zhuān)利中心 42201 代理人: 李智
地址: 430074 湖北*** 國(guó)省代碼: 湖北;42
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 一種 負(fù)反饋 基于 深度 強(qiáng)化 學(xué)習(xí) 推薦 方法 系統(tǒng)
【權(quán)利要求書(shū)】:

1.一種帶負(fù)反饋的基于深度強(qiáng)化學(xué)習(xí)的推薦方法,其特征在于,具體包括以下步驟:

S1.收集商品特征信息得到商品特征向量數(shù)據(jù)集,同時(shí)收集用戶行為數(shù)據(jù)得到用戶的正負(fù)反饋行為向量;具體包括:

S1.1.收集商品特征信息,按照時(shí)間與商品種類(lèi)進(jìn)行劃分,分別進(jìn)行嵌入處理,得到商品特征向量數(shù)據(jù)集(timestamp,itemid,embedding),用于后續(xù)的訓(xùn)練工作;

S1.2.收集用戶行為數(shù)據(jù),按照行為時(shí)間、用戶、行為動(dòng)作以及對(duì)應(yīng)商品編號(hào)進(jìn)行劃分得到用戶行為數(shù)據(jù)集(timestamp,visitorid,event,itemid),按照用戶與時(shí)間劃分?jǐn)?shù)據(jù),得到用戶的正負(fù)反饋行為向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},其中in與jn分別為用戶某時(shí)間段內(nèi)進(jìn)行了正反饋和負(fù)反饋的商品;

S2.對(duì)所述用戶的正負(fù)反饋行為向量通過(guò)特征提取網(wǎng)絡(luò)模型處理后,得到用戶的正負(fù)反饋特征混合狀態(tài)向量;具體包括:

S2.1.選取用戶某時(shí)段內(nèi)的前n個(gè)正反饋行為{i1,i2,...,in}與前n個(gè)負(fù)反饋行為{j1,j2,...,jn},構(gòu)成用戶某時(shí)段內(nèi)的歷史行為向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},并使用帶門(mén)循環(huán)單元的特征提取網(wǎng)絡(luò)模型進(jìn)行處理,生成正反饋狀態(tài)向量St+={s1+,s2+,...,sn+}與負(fù)反饋狀態(tài)向量St-={s1-,s2-,...,sn-};

S2.2.將步驟S2.1中獲取的正反饋狀態(tài)向量St+={s1+,s2+,...,sn+}、負(fù)反饋狀態(tài)向量St-={s1-,s2-,...,sn-}進(jìn)行處理而后再進(jìn)行混合,完成正負(fù)反饋特征混合狀態(tài)向量Kt={k1,k2,...,kn}生成工作;

S3.利用所述用戶的正負(fù)反饋特征混合狀態(tài)向量使用深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,直至模型收斂;具體包括:

S3.1.將所述混合狀態(tài)向量Kt={k1,k2,...,kn}輸入到在線策略網(wǎng)絡(luò),按照策略函數(shù)生成推薦動(dòng)作向量At,并按照用戶行為記憶模擬器根據(jù)用戶的歷史行為,計(jì)算當(dāng)前狀態(tài)與歷史狀態(tài)的相似度,對(duì)當(dāng)前狀態(tài)進(jìn)行計(jì)算評(píng)分得出狀態(tài)價(jià)值rt,根據(jù)狀態(tài)價(jià)值rt將推薦產(chǎn)品加入到{i1,i2,....in}與{j1,j2,....jn},生成用戶行為Ut+1,將(Ut,At,rt,Ut+1)記錄加入到記錄庫(kù)中供后續(xù)模型的訓(xùn)練使用;

S3.2.隨機(jī)從記錄庫(kù)中選取預(yù)設(shè)數(shù)量記錄用于模型的訓(xùn)練工作,利用步驟S2.1、S2.2生成正負(fù)反饋狀態(tài)向量St={St+,St-},St+1={St+1+,St+1-}以及混合狀態(tài)向量Kt與Kt+1,狀態(tài)價(jià)值rt

S3.3.利用步驟S3.2中的正負(fù)反饋混合狀態(tài)向量Kt+1,目標(biāo)策略網(wǎng)絡(luò)按照策略函數(shù)根據(jù)Kt+1生成At+1

S3.4.利用步驟S3.2中正負(fù)反饋混合狀態(tài)向量Kt,在線策略網(wǎng)絡(luò)按照策略函數(shù)根據(jù)Kt生成At

S3.5.將步驟S3.2與S3.4中St={St+,St-},At交付給在線估值網(wǎng)絡(luò),生成預(yù)測(cè)行為價(jià)值Q*(St,At;θμ),以及Q*(St,At;θμ)關(guān)于推薦動(dòng)作At的梯度方向

S3.6.將步驟S3.3、S3.2中At+1,St+1={St+1+,St+1-}交付給目標(biāo)估值網(wǎng)絡(luò)生成預(yù)測(cè)行為價(jià)值Q(St+1,At+1;θμ’);

S3.7.根據(jù)S3.2、S3.5與S3.6得到的價(jià)值rt值、Q*(St,At;θμ)與Q(St+1,At+1;θμ’)計(jì)算損失函數(shù)L(θμ),在線估值網(wǎng)絡(luò)根據(jù)損失函數(shù)L(θμ)與在線估值網(wǎng)絡(luò)參數(shù)parameter的梯度方向進(jìn)行參數(shù)更新;

S3.8.在線策略網(wǎng)絡(luò)根據(jù)策略函數(shù)關(guān)于S3.5中返回的梯度以及網(wǎng)絡(luò)模型參數(shù)的優(yōu)化梯度方向,完成模型的參數(shù)更新;

S3.9.目標(biāo)策略網(wǎng)絡(luò)與目標(biāo)估值網(wǎng)絡(luò)更新則依賴于在線策略網(wǎng)絡(luò)與在線估值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),按照設(shè)定學(xué)習(xí)率進(jìn)行相關(guān)網(wǎng)絡(luò)參數(shù)的更新操作;

S3.10.重復(fù)執(zhí)行步驟S3.1~S3.9完成推薦方法的訓(xùn)練工作,直至模型收斂;

S4.根據(jù)需要進(jìn)行推薦工作的用戶的歷史行為,先使用步驟S2生成正負(fù)反饋特征混合狀態(tài)向量,通過(guò)步驟S3完成訓(xùn)練的深度強(qiáng)化學(xué)習(xí)模型生成用戶推薦商品列表供給用戶進(jìn)行選擇,完成用戶推薦工作。

2.一種帶負(fù)反饋的基于深度強(qiáng)化學(xué)習(xí)的推薦系統(tǒng),其特征在于,包括:

正負(fù)反饋行為向量獲取模塊,收集商品特征信息得到商品特征向量數(shù)據(jù)集,同時(shí)收集用戶行為數(shù)據(jù)得到用戶的正負(fù)反饋行為向量;所述正負(fù)反饋行為向量獲取模塊包括:

商品特征收集單元,收集商品特征信息,按照時(shí)間與商品種類(lèi)進(jìn)行劃分,分別進(jìn)行嵌入處理,得到商品特征向量數(shù)據(jù)集(timestamp,itemid,embedding),用于后續(xù)的訓(xùn)練工作;

用戶行為收集單元,收集用戶行為數(shù)據(jù),按照行為時(shí)間、用戶、行為動(dòng)作以及對(duì)應(yīng)商品編號(hào)進(jìn)行劃分得到用戶行為數(shù)據(jù)集(timestamp,visitorid,event,itemid),按照用戶與時(shí)間劃分?jǐn)?shù)據(jù),得到用戶的正負(fù)反饋行為向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},其中in與jn分別為用戶某時(shí)間段內(nèi)進(jìn)行了正反饋和負(fù)反饋的商品;

正負(fù)反饋特征混合狀態(tài)向量獲取模塊,對(duì)所述用戶的正負(fù)反饋行為向量通過(guò)特征提取網(wǎng)絡(luò)模型處理后,得到用戶的正負(fù)反饋特征混合狀態(tài)向量;所述正負(fù)反饋特征混合狀態(tài)向量獲取模塊包括:

正負(fù)反饋狀態(tài)向量生成單元,選取用戶某時(shí)段內(nèi)的前n個(gè)正反饋行為{i1,i2,...,in}與前n個(gè)負(fù)反饋行為{j1,j2,...,jn},構(gòu)成用戶某時(shí)段內(nèi)的歷史行為向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},并使用帶門(mén)循環(huán)單元的特征提取網(wǎng)絡(luò)模型進(jìn)行處理,生成正反饋狀態(tài)向量St+={s1+,s2+,...,sn+}與負(fù)反饋狀態(tài)向量St-={s1-,s2-,...,sn-};

正負(fù)反饋特征混合狀態(tài)向量生成單元,將生成的正反饋狀態(tài)向量St+={s1+,s2+,...,sn+}、負(fù)反饋狀態(tài)向量St-={s1-,s2-,...,sn-}進(jìn)行處理而后再進(jìn)行混合,完成正負(fù)反饋特征混合狀態(tài)向量Kt={k1,k2,...,kn}生成工作;

模型訓(xùn)練模塊,利用所述用戶的正負(fù)反饋特征混合狀態(tài)向量對(duì)由策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)組成的深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,直至模型收斂;所述模型訓(xùn)練模塊包括:

將所述混合狀態(tài)向量Kt={k1,k2,...,kn}輸入到在線策略網(wǎng)絡(luò),按照策略函數(shù)fθπ生成推薦動(dòng)作向量At,并按照用戶行為記憶模擬器根據(jù)用戶的歷史行為,計(jì)算當(dāng)前狀態(tài)與歷史狀態(tài)的相似度,對(duì)當(dāng)前狀態(tài)進(jìn)行計(jì)算評(píng)分得出狀態(tài)價(jià)值rt,根據(jù)狀態(tài)價(jià)值rt將推薦產(chǎn)品加入到{i1,i2,....in}與{j1,j2,....jn},生成用戶行為Ut+1,將(Ut,At,rt,Ut+1)記錄加入到記錄庫(kù)中供后續(xù)模型的訓(xùn)練使用;

隨機(jī)從記錄庫(kù)中選取預(yù)設(shè)數(shù)量記錄用于模型的訓(xùn)練工作,生成正負(fù)反饋狀態(tài)向量St={St+,St-},St+1={St+1+,St+1-}以及混合狀態(tài)向量Kt與Kt+1,狀態(tài)價(jià)值rt

利用正負(fù)反饋混合狀態(tài)向量Kt+1,目標(biāo)策略網(wǎng)絡(luò)按照策略函數(shù)根據(jù)Kt+1生成At+1

利用正負(fù)反饋混合狀態(tài)向量Kt,在線策略網(wǎng)絡(luò)按照策略函數(shù)根據(jù)Kt生成At

將St={St+,St-},At交付給在線估值網(wǎng)絡(luò),生成預(yù)測(cè)行為價(jià)值Q*(St,At;θμ),以及Q*(St,At;θμ)關(guān)于推薦動(dòng)作At的梯度方向

將步驟At+1,St+1={St+1+,St+1-}交付給目標(biāo)估值網(wǎng)絡(luò)生成預(yù)測(cè)行為價(jià)值Q(St+1,At+1;θμ’);

根據(jù)價(jià)值rt值、Q*(St,At;θμ)與Q(St+1,At+1;θμ’)計(jì)算損失函數(shù)L(θμ),在線估值網(wǎng)絡(luò)根據(jù)損失函數(shù)L(θμ)與在線估值網(wǎng)絡(luò)參數(shù)parameter的梯度方向進(jìn)行參數(shù)更新;

在線策略網(wǎng)絡(luò)根據(jù)策略函數(shù)關(guān)于梯度以及網(wǎng)絡(luò)模型參數(shù)的優(yōu)化梯度方向,完成模型的參數(shù)更新;

目標(biāo)策略網(wǎng)絡(luò)與目標(biāo)估值網(wǎng)絡(luò)更新則依賴于在線策略網(wǎng)絡(luò)與在線估值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),按照設(shè)定學(xué)習(xí)率進(jìn)行相關(guān)網(wǎng)絡(luò)參數(shù)的更新操作;重復(fù)完成推薦方法的訓(xùn)練工作,直至模型收斂;

用戶推薦模塊,根據(jù)需要進(jìn)行推薦工作的用戶的歷史行為,先生成正負(fù)反饋特征混合狀態(tài)向量,通過(guò)完成訓(xùn)練的深度強(qiáng)化學(xué)習(xí)模型生成用戶推薦商品列表供給用戶進(jìn)行選擇,完成用戶推薦工作。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010328640.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

×

專(zhuān)利文獻(xiàn)下載

說(shuō)明:

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū);

2、支持發(fā)明專(zhuān)利 、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利(升級(jí)中);

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專(zhuān)利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 中文字幕欧美久久日高清| 国产欧美一区二区精品婷| 午夜电影一区二区| 色午夜影院| 午夜激情综合网| 午夜激情在线| 88国产精品视频一区二区三区| 久久国产中文字幕| 狠狠躁夜夜| 国产伦精品一区二区三区免费下载 | 久久久久亚洲精品| 国产在线一卡| 午夜看片网址| 国产乱色国产精品播放视频| 99精品国产一区二区三区麻豆| 国产视频1区2区| 99久久国产综合| 国产精品不卡一区二区三区| 99国产精品99久久久久久粉嫩| 狠狠躁夜夜躁| 国产麻豆精品一区二区| 综合久久一区| 亚洲第一区国产精品| 欧美日韩久久精品| 国产视频二区| xoxoxo亚洲国产精品| 国产亚洲精品久久久久久久久动漫| 中文字幕二区在线观看| 精品日韩久久久| 国产精品视频二区不卡| 日韩亚洲精品在线| 久久青草欧美一区二区三区| xxxx国产一二三区xxxx| 91精品视频在线观看免费| 鲁一鲁一鲁一鲁一鲁一av| 欧美精品xxxxx| 色吊丝av中文字幕| 亚洲国产精品一区二区久久,亚洲午夜| 欧美精品一区二区性色| 日本亚洲国产精品| 精品国产鲁一鲁一区二区作者| 日韩精品午夜视频| 日韩精品一区二区免费| 国产精品一区二区三区在线看| 狠狠色狠狠色合久久伊人| 国产欧美一区二区三区沐欲 | 欧美综合国产精品久久丁香| 91精品一二区| 91丝袜诱惑| 狠狠操很很干| 大bbw大bbw超大bbw| 四虎国产精品永久在线| 久久精品一区二区三区电影| 97精品国产aⅴ7777| 九九精品久久| 国产亚洲精品精品国产亚洲综合| 久久99精品国产| 91精品一二区| 香蕉视频一区二区三区| 精品视频久| 亚洲精品日本久久一区二区三区| 国产一区二区国产| 欧美日韩中文国产一区发布| 欧美日韩国产一区二区三区在线观看 | 日韩精品中文字幕在线| 免费看片一区二区三区| 国产亚洲精品久久久456| 久久精品中文字幕一区| 欧美日韩一区二区在线播放| 国产黄色网址大全| 国产欧美一区二区三区在线| 欧美日韩国产一二| 欧美精品乱码视频一二专区| 久久人做人爽一区二区三区小说| 国内精品久久久久影院日本| 中文字幕a一二三在线| 最新日韩一区| 国产一区二区三区四区五区七| 久久久久久久亚洲国产精品87| 国产精品欧美一区二区三区| 97视频久久久| 国产精品乱码一区二区三区四川人| 亚洲码在线| 精品国产乱码久久久久久久| 免费超级乱淫视频播放| 精品久久一区| 国产97在线看| 国产精品一区二区av日韩在线| 99国产精品久久久久| 欧美一区二区三区久久精品视 | 欧美日韩国产免费观看| 国产精品日韩在线观看| 亚州精品国产| 狠狠色噜噜狠狠狠狠米奇7777| 国产主播啪啪| 国产欧美日韩va另类在线播放| 精品国产乱码久久久久久软件影片| 久爱精品视频在线播放| 日韩不卡毛片| 欧美三级午夜理伦三级老人| 亚洲一区欧美| 亚洲欧美国产精品一区二区| 欧美人妖一区二区三区| 国产精品视频二区不卡| 国产精品三级久久久久久电影| 久免费看少妇高潮a级特黄按摩 | 一级久久久| 中文字幕视频一区二区| 欧美一区二区三区中文字幕| 欧美一级久久精品| 亚洲精品一品区二品区三品区 | 强制中出し~大桥未久4| 真实的国产乱xxxx在线91| 91精品国产综合久久国产大片| 国产精品乱码久久久久久久久| 欧美一区二区三区黄| 欧美精品一区二区性色| 欧美精品一区二区三区久久久竹菊| 亚洲欧洲一区二区| 中文字幕一区二区三区不卡| 国产午夜亚洲精品午夜鲁丝片| 狠狠色噜噜狠狠狠狠视频| 欧美日韩国产精品综合| 国产一区影院| 强制中出し~大桥未久10在线播放| 欧美一区二区三区在线视频播放| 91一区二区三区视频| 性色av香蕉一区二区| 玖玖玖国产精品| 中文字幕一区二区三区免费| 国产极品美女高潮无套久久久| 欧美一区二区三区白人| av素人在线| 亚洲福利视频一区二区| 日韩精品福利片午夜免费观看| 久久99精品国产麻豆宅宅| 免费观看又色又爽又刺激的视频 | 久久精品视频偷拍| 高清欧美精品xxxxx| 四虎国产精品永久在线国在线| 精品国产一区二区三区忘忧草| 日韩午夜毛片| 久久国产欧美一区二区免费| 日韩欧美中文字幕一区| 日本一区二区三区电影免费观看| 久久99精品久久久大学生| 精品久久综合1区2区3区激情| 偷拍久久精品视频| 日韩无遮挡免费视频| 激情久久一区二区| 一区二区午夜| 国产网站一区二区| 亚洲欧美国产中文字幕| 欧洲另类类一二三四区| 午夜影院激情| 少妇av一区二区三区| 日日夜夜精品免费看| 欧美日韩一区二区在线播放| 91精品国产91热久久久做人人| 国产精品免费专区| 国产色99| 少妇久久精品一区二区夜夜嗨| 精品免费久久久久久久苍| 国产女人和拘做受在线视频| 国产乱人伦偷精品视频免下载| 香蕉av一区| 午夜国产一区二区三区| 夜色av网| 一级久久久| 99国产精品久久久久99打野战 | 国产黄色网址大全| 日韩电影在线一区二区三区| 97国产精品久久久| 国产色一区二区| 欧美在线观看视频一区二区三区 | 日韩av中文字幕在线免费观看| 国产区二区| 亚洲欧美国产一区二区三区| 欧美在线视频一二三区| 国产精品久久99| 国产午夜一区二区三区| 狠狠躁日日躁狂躁夜夜躁| 久久夜色精品国产噜噜麻豆| 久久久综合香蕉尹人综合网| 亚洲欧洲日韩在线| 强行挺进女警紧窄湿润| 亚洲精品国产久| 欧美一区二区色| 9999国产精品| 久久久精品欧美一区二区免费| 国产精品一区二| 日本精品一二三区| 日韩毛片一区| 国产日韩一二三区| 91精品一区二区中文字幕| 国产精品无码永久免费888| 麻豆精品一区二区三区在线观看| 午夜剧场a级免费| 精品欧美一区二区在线观看| 超碰97国产精品人人cao| 亚洲精品久久久久不卡激情文学| 国产大学生呻吟对白精彩在线| 国产不卡三区| 亚洲va久久久噜噜噜久久0| 一区精品二区国产| 精品国产免费一区二区三区| 国产视频二区| 亚洲欧美视频一区二区| 国产精品9区| 99精品少妇| 国产精品二区一区二区aⅴ| 少妇高潮在线观看| 国产91电影在线观看| 日韩精品久久久久久中文字幕8| xxxx18日本护士高清hd| 91精品久久久久久综合五月天| 首页亚洲欧美制服丝腿| 91区国产| 日韩av在线影院| 91精品国产综合久久国产大片| 免费**毛片| 中文字幕日韩有码| 午夜免费片| 国产精品一区二区久久乐夜夜嗨 | 国产精品国产三级国产播12软件| 99久久免费精品视频| 91精品视频免费在线观看| 奇米色欧美一区二区三区| 中文av一区| 香蕉av一区二区| 99久精品视频| 欧美精品一区久久| 欧美老肥婆性猛交视频| 欧美一区二区三区精品免费| 午夜一级免费电影| 日本白嫩的18sex少妇hd| 99riav3国产精品视频| 亚洲乱亚洲乱妇50p| 国产一二三区免费| а√天堂8资源中文在线| 欧美一区二区三区另类| 久久一区二区三区视频| 国产69久久久欧美一级| 欧美日韩一区二区在线播放 | 国产精品伦一区二区三区级视频频| 久久久999精品视频|