[發(fā)明專(zhuān)利]一種帶負(fù)反饋的基于深度強(qiáng)化學(xué)習(xí)的推薦方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010328640.0 | 申請(qǐng)日: | 2020-04-23 |
| 公開(kāi)(公告)號(hào): | CN111523940B | 公開(kāi)(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 李玉華;李鑫;李瑞軒;辜希武 | 申請(qǐng)(專(zhuān)利權(quán))人: | 華中科技大學(xué) |
| 主分類(lèi)號(hào): | G06Q30/0601 | 分類(lèi)號(hào): | G06Q30/0601;G06N7/01;G06N3/0442;G06N3/045;G06N3/048;G06N3/084;G06N3/092 |
| 代理公司: | 華中科技大學(xué)專(zhuān)利中心 42201 | 代理人: | 李智 |
| 地址: | 430074 湖北*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 負(fù)反饋 基于 深度 強(qiáng)化 學(xué)習(xí) 推薦 方法 系統(tǒng) | ||
1.一種帶負(fù)反饋的基于深度強(qiáng)化學(xué)習(xí)的推薦方法,其特征在于,具體包括以下步驟:
S1.收集商品特征信息得到商品特征向量數(shù)據(jù)集,同時(shí)收集用戶行為數(shù)據(jù)得到用戶的正負(fù)反饋行為向量;具體包括:
S1.1.收集商品特征信息,按照時(shí)間與商品種類(lèi)進(jìn)行劃分,分別進(jìn)行嵌入處理,得到商品特征向量數(shù)據(jù)集(timestamp,itemid,embedding),用于后續(xù)的訓(xùn)練工作;
S1.2.收集用戶行為數(shù)據(jù),按照行為時(shí)間、用戶、行為動(dòng)作以及對(duì)應(yīng)商品編號(hào)進(jìn)行劃分得到用戶行為數(shù)據(jù)集(timestamp,visitorid,event,itemid),按照用戶與時(shí)間劃分?jǐn)?shù)據(jù),得到用戶的正負(fù)反饋行為向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},其中in與jn分別為用戶某時(shí)間段內(nèi)進(jìn)行了正反饋和負(fù)反饋的商品;
S2.對(duì)所述用戶的正負(fù)反饋行為向量通過(guò)特征提取網(wǎng)絡(luò)模型處理后,得到用戶的正負(fù)反饋特征混合狀態(tài)向量;具體包括:
S2.1.選取用戶某時(shí)段內(nèi)的前n個(gè)正反饋行為{i1,i2,...,in}與前n個(gè)負(fù)反饋行為{j1,j2,...,jn},構(gòu)成用戶某時(shí)段內(nèi)的歷史行為向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},并使用帶門(mén)循環(huán)單元的特征提取網(wǎng)絡(luò)模型進(jìn)行處理,生成正反饋狀態(tài)向量St+={s1+,s2+,...,sn+}與負(fù)反饋狀態(tài)向量St-={s1-,s2-,...,sn-};
S2.2.將步驟S2.1中獲取的正反饋狀態(tài)向量St+={s1+,s2+,...,sn+}、負(fù)反饋狀態(tài)向量St-={s1-,s2-,...,sn-}進(jìn)行處理而后再進(jìn)行混合,完成正負(fù)反饋特征混合狀態(tài)向量Kt={k1,k2,...,kn}生成工作;
S3.利用所述用戶的正負(fù)反饋特征混合狀態(tài)向量使用深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,直至模型收斂;具體包括:
S3.1.將所述混合狀態(tài)向量Kt={k1,k2,...,kn}輸入到在線策略網(wǎng)絡(luò),按照策略函數(shù)生成推薦動(dòng)作向量At,并按照用戶行為記憶模擬器根據(jù)用戶的歷史行為,計(jì)算當(dāng)前狀態(tài)與歷史狀態(tài)的相似度,對(duì)當(dāng)前狀態(tài)進(jìn)行計(jì)算評(píng)分得出狀態(tài)價(jià)值rt,根據(jù)狀態(tài)價(jià)值rt將推薦產(chǎn)品加入到{i1,i2,....in}與{j1,j2,....jn},生成用戶行為Ut+1,將(Ut,At,rt,Ut+1)記錄加入到記錄庫(kù)中供后續(xù)模型的訓(xùn)練使用;
S3.2.隨機(jī)從記錄庫(kù)中選取預(yù)設(shè)數(shù)量記錄用于模型的訓(xùn)練工作,利用步驟S2.1、S2.2生成正負(fù)反饋狀態(tài)向量St={St+,St-},St+1={St+1+,St+1-}以及混合狀態(tài)向量Kt與Kt+1,狀態(tài)價(jià)值rt:
S3.3.利用步驟S3.2中的正負(fù)反饋混合狀態(tài)向量Kt+1,目標(biāo)策略網(wǎng)絡(luò)按照策略函數(shù)根據(jù)Kt+1生成At+1;
S3.4.利用步驟S3.2中正負(fù)反饋混合狀態(tài)向量Kt,在線策略網(wǎng)絡(luò)按照策略函數(shù)根據(jù)Kt生成At;
S3.5.將步驟S3.2與S3.4中St={St+,St-},At交付給在線估值網(wǎng)絡(luò),生成預(yù)測(cè)行為價(jià)值Q*(St,At;θμ),以及Q*(St,At;θμ)關(guān)于推薦動(dòng)作At的梯度方向
S3.6.將步驟S3.3、S3.2中At+1,St+1={St+1+,St+1-}交付給目標(biāo)估值網(wǎng)絡(luò)生成預(yù)測(cè)行為價(jià)值Q(St+1,At+1;θμ’);
S3.7.根據(jù)S3.2、S3.5與S3.6得到的價(jià)值rt值、Q*(St,At;θμ)與Q(St+1,At+1;θμ’)計(jì)算損失函數(shù)L(θμ),在線估值網(wǎng)絡(luò)根據(jù)損失函數(shù)L(θμ)與在線估值網(wǎng)絡(luò)參數(shù)parameter的梯度方向進(jìn)行參數(shù)更新;
S3.8.在線策略網(wǎng)絡(luò)根據(jù)策略函數(shù)關(guān)于S3.5中返回的梯度以及網(wǎng)絡(luò)模型參數(shù)的優(yōu)化梯度方向,完成模型的參數(shù)更新;
S3.9.目標(biāo)策略網(wǎng)絡(luò)與目標(biāo)估值網(wǎng)絡(luò)更新則依賴于在線策略網(wǎng)絡(luò)與在線估值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),按照設(shè)定學(xué)習(xí)率進(jìn)行相關(guān)網(wǎng)絡(luò)參數(shù)的更新操作;
S3.10.重復(fù)執(zhí)行步驟S3.1~S3.9完成推薦方法的訓(xùn)練工作,直至模型收斂;
S4.根據(jù)需要進(jìn)行推薦工作的用戶的歷史行為,先使用步驟S2生成正負(fù)反饋特征混合狀態(tài)向量,通過(guò)步驟S3完成訓(xùn)練的深度強(qiáng)化學(xué)習(xí)模型生成用戶推薦商品列表供給用戶進(jìn)行選擇,完成用戶推薦工作。
2.一種帶負(fù)反饋的基于深度強(qiáng)化學(xué)習(xí)的推薦系統(tǒng),其特征在于,包括:
正負(fù)反饋行為向量獲取模塊,收集商品特征信息得到商品特征向量數(shù)據(jù)集,同時(shí)收集用戶行為數(shù)據(jù)得到用戶的正負(fù)反饋行為向量;所述正負(fù)反饋行為向量獲取模塊包括:
商品特征收集單元,收集商品特征信息,按照時(shí)間與商品種類(lèi)進(jìn)行劃分,分別進(jìn)行嵌入處理,得到商品特征向量數(shù)據(jù)集(timestamp,itemid,embedding),用于后續(xù)的訓(xùn)練工作;
用戶行為收集單元,收集用戶行為數(shù)據(jù),按照行為時(shí)間、用戶、行為動(dòng)作以及對(duì)應(yīng)商品編號(hào)進(jìn)行劃分得到用戶行為數(shù)據(jù)集(timestamp,visitorid,event,itemid),按照用戶與時(shí)間劃分?jǐn)?shù)據(jù),得到用戶的正負(fù)反饋行為向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},其中in與jn分別為用戶某時(shí)間段內(nèi)進(jìn)行了正反饋和負(fù)反饋的商品;
正負(fù)反饋特征混合狀態(tài)向量獲取模塊,對(duì)所述用戶的正負(fù)反饋行為向量通過(guò)特征提取網(wǎng)絡(luò)模型處理后,得到用戶的正負(fù)反饋特征混合狀態(tài)向量;所述正負(fù)反饋特征混合狀態(tài)向量獲取模塊包括:
正負(fù)反饋狀態(tài)向量生成單元,選取用戶某時(shí)段內(nèi)的前n個(gè)正反饋行為{i1,i2,...,in}與前n個(gè)負(fù)反饋行為{j1,j2,...,jn},構(gòu)成用戶某時(shí)段內(nèi)的歷史行為向量Ut={{i1,i2,...,in},{j1,j2,...,jn}},并使用帶門(mén)循環(huán)單元的特征提取網(wǎng)絡(luò)模型進(jìn)行處理,生成正反饋狀態(tài)向量St+={s1+,s2+,...,sn+}與負(fù)反饋狀態(tài)向量St-={s1-,s2-,...,sn-};
正負(fù)反饋特征混合狀態(tài)向量生成單元,將生成的正反饋狀態(tài)向量St+={s1+,s2+,...,sn+}、負(fù)反饋狀態(tài)向量St-={s1-,s2-,...,sn-}進(jìn)行處理而后再進(jìn)行混合,完成正負(fù)反饋特征混合狀態(tài)向量Kt={k1,k2,...,kn}生成工作;
模型訓(xùn)練模塊,利用所述用戶的正負(fù)反饋特征混合狀態(tài)向量對(duì)由策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)組成的深度強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,直至模型收斂;所述模型訓(xùn)練模塊包括:
將所述混合狀態(tài)向量Kt={k1,k2,...,kn}輸入到在線策略網(wǎng)絡(luò),按照策略函數(shù)fθπ生成推薦動(dòng)作向量At,并按照用戶行為記憶模擬器根據(jù)用戶的歷史行為,計(jì)算當(dāng)前狀態(tài)與歷史狀態(tài)的相似度,對(duì)當(dāng)前狀態(tài)進(jìn)行計(jì)算評(píng)分得出狀態(tài)價(jià)值rt,根據(jù)狀態(tài)價(jià)值rt將推薦產(chǎn)品加入到{i1,i2,....in}與{j1,j2,....jn},生成用戶行為Ut+1,將(Ut,At,rt,Ut+1)記錄加入到記錄庫(kù)中供后續(xù)模型的訓(xùn)練使用;
隨機(jī)從記錄庫(kù)中選取預(yù)設(shè)數(shù)量記錄用于模型的訓(xùn)練工作,生成正負(fù)反饋狀態(tài)向量St={St+,St-},St+1={St+1+,St+1-}以及混合狀態(tài)向量Kt與Kt+1,狀態(tài)價(jià)值rt:
利用正負(fù)反饋混合狀態(tài)向量Kt+1,目標(biāo)策略網(wǎng)絡(luò)按照策略函數(shù)根據(jù)Kt+1生成At+1;
利用正負(fù)反饋混合狀態(tài)向量Kt,在線策略網(wǎng)絡(luò)按照策略函數(shù)根據(jù)Kt生成At;
將St={St+,St-},At交付給在線估值網(wǎng)絡(luò),生成預(yù)測(cè)行為價(jià)值Q*(St,At;θμ),以及Q*(St,At;θμ)關(guān)于推薦動(dòng)作At的梯度方向
將步驟At+1,St+1={St+1+,St+1-}交付給目標(biāo)估值網(wǎng)絡(luò)生成預(yù)測(cè)行為價(jià)值Q(St+1,At+1;θμ’);
根據(jù)價(jià)值rt值、Q*(St,At;θμ)與Q(St+1,At+1;θμ’)計(jì)算損失函數(shù)L(θμ),在線估值網(wǎng)絡(luò)根據(jù)損失函數(shù)L(θμ)與在線估值網(wǎng)絡(luò)參數(shù)parameter的梯度方向進(jìn)行參數(shù)更新;
在線策略網(wǎng)絡(luò)根據(jù)策略函數(shù)關(guān)于梯度以及網(wǎng)絡(luò)模型參數(shù)的優(yōu)化梯度方向,完成模型的參數(shù)更新;
目標(biāo)策略網(wǎng)絡(luò)與目標(biāo)估值網(wǎng)絡(luò)更新則依賴于在線策略網(wǎng)絡(luò)與在線估值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),按照設(shè)定學(xué)習(xí)率進(jìn)行相關(guān)網(wǎng)絡(luò)參數(shù)的更新操作;重復(fù)完成推薦方法的訓(xùn)練工作,直至模型收斂;
用戶推薦模塊,根據(jù)需要進(jìn)行推薦工作的用戶的歷史行為,先生成正負(fù)反饋特征混合狀態(tài)向量,通過(guò)完成訓(xùn)練的深度強(qiáng)化學(xué)習(xí)模型生成用戶推薦商品列表供給用戶進(jìn)行選擇,完成用戶推薦工作。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010328640.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06Q 專(zhuān)門(mén)適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類(lèi)目不包含的專(zhuān)門(mén)適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測(cè)目的的處理系統(tǒng)或方法
G06Q30-00 商業(yè),例如購(gòu)物或電子商務(wù)
G06Q30-02 .行銷(xiāo),例如,市場(chǎng)研究與分析、調(diào)查、促銷(xiāo)、廣告、買(mǎi)方剖析研究、客戶管理或獎(jiǎng)勵(lì);價(jià)格評(píng)估或確定
G06Q30-04 .簽單或開(kāi)發(fā)票
G06Q30-06 .購(gòu)買(mǎi)、出售或租賃交易
G06Q30-08 ..拍賣(mài)





