[發(fā)明專利]基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010537848.3 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111698327B | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設(shè)計)人: | 符永銓;孫正倫;李青青;沈思淇;竇勇;李榮春;喬鵬;孫濤;蘇華友;王慶林 | 申請(專利權(quán))人: | 中國人民解放軍國防科技大學(xué) |
| 主分類號: | H04L67/1001 | 分類號: | H04L67/1001;H04L67/104;H04L67/562;G06N20/00;G06F9/54 |
| 代理公司: | 長沙國科天河知識產(chǎn)權(quán)代理有限公司 43225 | 代理人: | 董惠文 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 聊天室 架構(gòu) 分布 并行 強(qiáng)化 學(xué)習(xí) 模型 訓(xùn)練 方法 系統(tǒng) | ||
1.一種基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,包括:
根據(jù)消息中間件,構(gòu)建聊天室架構(gòu)的消息共享機(jī)制;所述消息共享機(jī)制是所述聊天室架構(gòu)中多個節(jié)點(diǎn)通過所述消息中間件進(jìn)行消息共享;
將預(yù)先設(shè)置的強(qiáng)化學(xué)習(xí)模型的局部模型分別部署在各個所述節(jié)點(diǎn)中,通過各個所述節(jié)點(diǎn)產(chǎn)生的訓(xùn)練樣本分別對各個所述節(jié)點(diǎn)中部署的局部模型進(jìn)行訓(xùn)練,得到各個局部模型的更新參數(shù);
將所述更新參數(shù)保存為參數(shù)消息,并將所述參數(shù)消息利用所述消息中間件共享至所述聊天室架構(gòu)中的其他所述節(jié)點(diǎn);
獲取其他所述節(jié)點(diǎn)中的參數(shù)消息,將從其他所述節(jié)點(diǎn)中獲取的參數(shù)消息與當(dāng)前節(jié)點(diǎn)的參數(shù)消息進(jìn)行聚合,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型,包括:
獲取其他所述節(jié)點(diǎn)中的參數(shù)消息;
將獲取的其他所述節(jié)點(diǎn)中的參數(shù)消息與當(dāng)前節(jié)點(diǎn)的參數(shù)消息進(jìn)行聚合,形成當(dāng)前節(jié)點(diǎn)的優(yōu)先級隊列;
從所述優(yōu)先級隊列中選取得分高于當(dāng)前所述節(jié)點(diǎn)中部署的局部模型得分的局部模型,對選取的局部模型的參數(shù)取平均值,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型。
2.如權(quán)利要求1所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,根據(jù)消息中間件,構(gòu)建聊天室架構(gòu)的消息共享機(jī)制的步驟,包括:
根據(jù)消息中間件,構(gòu)建多個所述節(jié)點(diǎn)通過所述消息中間件在所述聊天室架構(gòu)的通信總線;所述通信總線用于多個所述節(jié)點(diǎn)之間消息的發(fā)布與接收;
根據(jù)所述通信總線,構(gòu)建聊天室架構(gòu)的消息共享機(jī)制;所述消息共享機(jī)制是所述聊天室架構(gòu)中多個節(jié)點(diǎn)通過所述消息中間件進(jìn)行消息共享;
其中,發(fā)布消息采用aiozyre庫中的接口shout,接收消息采用aiozyre庫中的接口recv。
3.如權(quán)利要求2所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述聊天室架構(gòu)包括多個主題;
根據(jù)消息中間件,構(gòu)建聊天室架構(gòu)的消息共享機(jī)制,還包括:
根據(jù)消息中間件,構(gòu)建聊天室架構(gòu)中同一主題下多個節(jié)點(diǎn)的消息共享機(jī)制。
4.如權(quán)利要求3所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,根據(jù)消息中間件,構(gòu)建聊天室架構(gòu)中同一主題下多個節(jié)點(diǎn)的消息共享機(jī)制的步驟,包括:
將所述節(jié)點(diǎn)的id輸入所述主題的主題列表;
當(dāng)輸出所述節(jié)點(diǎn)加入所述主題列表成功的反饋信息,或,所述主題下其他節(jié)點(diǎn)接收到所述節(jié)點(diǎn)發(fā)布的消息時,確定所述節(jié)點(diǎn)加入所述主題列表成功。
5.如權(quán)利要求1所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,所述局部模型包括多個actor模型和learner模型;
將預(yù)先設(shè)置的強(qiáng)化學(xué)習(xí)模型的局部模型分別部署在各個所述節(jié)點(diǎn)中,包括:
將預(yù)先設(shè)置的強(qiáng)化學(xué)習(xí)模型的actor模型和learner模型分別部署在各個所述節(jié)點(diǎn)中;所述actor模型用于產(chǎn)生訓(xùn)練樣本,所述learner模型用于更新局部模型的模型參數(shù)。
6.如權(quán)利要求5所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,通過各個所述節(jié)點(diǎn)產(chǎn)生的訓(xùn)練樣本分別對各個所述節(jié)點(diǎn)中部署的局部模型進(jìn)行訓(xùn)練,得到各個局部模型的更新參數(shù)的步驟,包括:
利用節(jié)點(diǎn)id及模型配置參數(shù)分別初始化部署在各個節(jié)點(diǎn)中的所述actor模型和所述learner模型;
向所述actor模型輸入設(shè)置參數(shù),獲得訓(xùn)練樣本;
利用所述訓(xùn)練樣本訓(xùn)練所述learner模型,獲得各個局部模型的更新參數(shù)。
7.如權(quán)利要求6所述的基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法,其特征在于,利用所述訓(xùn)練樣本訓(xùn)練所述learner模型,獲得各個局部模型的更新參數(shù)的步驟,包括:
分別以各個節(jié)點(diǎn)的所述訓(xùn)練樣本作為輸入,利用A2C算法進(jìn)行多線程的各個節(jié)點(diǎn)的learner模型訓(xùn)練,每個節(jié)點(diǎn)的learner模型并行訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué),未經(jīng)中國人民解放軍國防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010537848.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種用戶獲取聊天室歷史記錄的方法和聊天室業(yè)務(wù)系統(tǒng)
- 一種創(chuàng)建網(wǎng)絡(luò)聊天平臺的方法及系統(tǒng)
- 一種管理聊天室的方法及裝置
- 請求消息處理方法、聊天室消息服務(wù)器及聊天室系統(tǒng)
- 一種自適應(yīng)房間人數(shù)的聊天室配置方法及聊天室系統(tǒng)
- 顯示聊天室列表的方法及介質(zhì)
- 以使用程度為基礎(chǔ)處理聊天室的方法、系統(tǒng)及非暫時性計算機(jī)可讀記錄介質(zhì)
- 顯示與即時通訊軟件應(yīng)用程序相關(guān)的聊天室的方法及裝置
- 用于使消息應(yīng)用程序之聊天室失效之電子裝置、方法及計算機(jī)可讀記錄介質(zhì)
- 信息展示方法、裝置、電子設(shè)備及存儲介質(zhì)





