[發(fā)明專利]基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法及系統(tǒng)有效

申請?zhí)枺?/td>	202010537848.3	申請日：	2020-06-12
公開（公告）號：	CN111698327B	公開（公告）日：	2022-07-01
發(fā)明（設(shè)計）人：	符永銓;孫正倫;李青青;沈思淇;竇勇;李榮春;喬鵬;孫濤;蘇華友;王慶林	申請（專利權(quán)）人：	中國人民解放軍國防科技大學(xué)
主分類號：	H04L67/1001	分類號：	H04L67/1001;H04L67/104;H04L67/562;G06N20/00;G06F9/54
代理公司：	長沙國科天河知識產(chǎn)權(quán)代理有限公司 43225	代理人：	董惠文
地址：	410073 湖***	國省代碼：	湖南;43
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于聊天室架構(gòu) 分布并行強(qiáng)化學(xué)習(xí) 模型訓(xùn)練方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，包括：

根據(jù)消息中間件，構(gòu)建聊天室架構(gòu)的消息共享機(jī)制；所述消息共享機(jī)制是所述聊天室架構(gòu)中多個節(jié)點(diǎn)通過所述消息中間件進(jìn)行消息共享；

將預(yù)先設(shè)置的強(qiáng)化學(xué)習(xí)模型的局部模型分別部署在各個所述節(jié)點(diǎn)中，通過各個所述節(jié)點(diǎn)產(chǎn)生的訓(xùn)練樣本分別對各個所述節(jié)點(diǎn)中部署的局部模型進(jìn)行訓(xùn)練，得到各個局部模型的更新參數(shù)；

將所述更新參數(shù)保存為參數(shù)消息，并將所述參數(shù)消息利用所述消息中間件共享至所述聊天室架構(gòu)中的其他所述節(jié)點(diǎn)；

獲取其他所述節(jié)點(diǎn)中的參數(shù)消息，將從其他所述節(jié)點(diǎn)中獲取的參數(shù)消息與當(dāng)前節(jié)點(diǎn)的參數(shù)消息進(jìn)行聚合，得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型，包括：

獲取其他所述節(jié)點(diǎn)中的參數(shù)消息；

將獲取的其他所述節(jié)點(diǎn)中的參數(shù)消息與當(dāng)前節(jié)點(diǎn)的參數(shù)消息進(jìn)行聚合，形成當(dāng)前節(jié)點(diǎn)的優(yōu)先級隊列；

從所述優(yōu)先級隊列中選取得分高于當(dāng)前所述節(jié)點(diǎn)中部署的局部模型得分的局部模型，對選取的局部模型的參數(shù)取平均值，得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型。

2.如權(quán)利要求1所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，根據(jù)消息中間件，構(gòu)建聊天室架構(gòu)的消息共享機(jī)制的步驟，包括：

根據(jù)消息中間件，構(gòu)建多個所述節(jié)點(diǎn)通過所述消息中間件在所述聊天室架構(gòu)的通信總線；所述通信總線用于多個所述節(jié)點(diǎn)之間消息的發(fā)布與接收；

根據(jù)所述通信總線，構(gòu)建聊天室架構(gòu)的消息共享機(jī)制；所述消息共享機(jī)制是所述聊天室架構(gòu)中多個節(jié)點(diǎn)通過所述消息中間件進(jìn)行消息共享；

其中，發(fā)布消息采用aiozyre庫中的接口shout，接收消息采用aiozyre庫中的接口recv。

3.如權(quán)利要求2所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述聊天室架構(gòu)包括多個主題；

根據(jù)消息中間件，構(gòu)建聊天室架構(gòu)的消息共享機(jī)制，還包括：

根據(jù)消息中間件，構(gòu)建聊天室架構(gòu)中同一主題下多個節(jié)點(diǎn)的消息共享機(jī)制。

4.如權(quán)利要求3所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，根據(jù)消息中間件，構(gòu)建聊天室架構(gòu)中同一主題下多個節(jié)點(diǎn)的消息共享機(jī)制的步驟，包括：

將所述節(jié)點(diǎn)的id輸入所述主題的主題列表；

當(dāng)輸出所述節(jié)點(diǎn)加入所述主題列表成功的反饋信息，或，所述主題下其他節(jié)點(diǎn)接收到所述節(jié)點(diǎn)發(fā)布的消息時，確定所述節(jié)點(diǎn)加入所述主題列表成功。

5.如權(quán)利要求1所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，所述局部模型包括多個actor模型和learner模型；

將預(yù)先設(shè)置的強(qiáng)化學(xué)習(xí)模型的局部模型分別部署在各個所述節(jié)點(diǎn)中，包括：

將預(yù)先設(shè)置的強(qiáng)化學(xué)習(xí)模型的actor模型和learner模型分別部署在各個所述節(jié)點(diǎn)中；所述actor模型用于產(chǎn)生訓(xùn)練樣本，所述learner模型用于更新局部模型的模型參數(shù)。

6.如權(quán)利要求5所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，通過各個所述節(jié)點(diǎn)產(chǎn)生的訓(xùn)練樣本分別對各個所述節(jié)點(diǎn)中部署的局部模型進(jìn)行訓(xùn)練，得到各個局部模型的更新參數(shù)的步驟，包括：

利用節(jié)點(diǎn)id及模型配置參數(shù)分別初始化部署在各個節(jié)點(diǎn)中的所述actor模型和所述learner模型；

向所述actor模型輸入設(shè)置參數(shù)，獲得訓(xùn)練樣本；

利用所述訓(xùn)練樣本訓(xùn)練所述learner模型，獲得各個局部模型的更新參數(shù)。

7.如權(quán)利要求6所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法，其特征在于，利用所述訓(xùn)練樣本訓(xùn)練所述learner模型，獲得各個局部模型的更新參數(shù)的步驟，包括：

分別以各個節(jié)點(diǎn)的所述訓(xùn)練樣本作為輸入，利用A2C算法進(jìn)行多線程的各個節(jié)點(diǎn)的learner模型訓(xùn)練，每個節(jié)點(diǎn)的learner模型并行訓(xùn)練。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué)，未經(jīng)中國人民解放軍國防科技大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010537848.3/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：快換電池包安裝裝置、鎖止方法、解鎖方法和電動汽車
下一篇：空間域與變換域相融合的噪聲圖像重構(gòu)方法

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04L 數(shù)字信息的傳輸，例如電報通信

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】