[發(fā)明專利]基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010537848.3 | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111698327B | 公開(公告)日: | 2022-07-01 |
| 發(fā)明(設(shè)計)人: | 符永銓;孫正倫;李青青;沈思淇;竇勇;李榮春;喬鵬;孫濤;蘇華友;王慶林 | 申請(專利權(quán))人: | 中國人民解放軍國防科技大學(xué) |
| 主分類號: | H04L67/1001 | 分類號: | H04L67/1001;H04L67/104;H04L67/562;G06N20/00;G06F9/54 |
| 代理公司: | 長沙國科天河知識產(chǎn)權(quán)代理有限公司 43225 | 代理人: | 董惠文 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 聊天室 架構(gòu) 分布 并行 強(qiáng)化 學(xué)習(xí) 模型 訓(xùn)練 方法 系統(tǒng) | ||
本發(fā)明公開一種基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法,包括根據(jù)消息中間件,構(gòu)建聊天室架構(gòu)的消息共享機(jī)制;將預(yù)先設(shè)置的強(qiáng)化學(xué)習(xí)模型的局部模型分別部署在各個所述節(jié)點中,通過各個所述節(jié)點產(chǎn)生的訓(xùn)練樣本分別對各個所述節(jié)點中部署的局部模型進(jìn)行訓(xùn)練,得到各個局部模型的更新參數(shù);將所述更新參數(shù)保存為參數(shù)消息,并將所述參數(shù)消息利用所述消息中間件共享至所述聊天室架構(gòu)中的其他所述節(jié)點;獲取其他所述節(jié)點中的參數(shù)消息,將從其他所述節(jié)點中獲取的參數(shù)消息與當(dāng)前節(jié)點的參數(shù)消息進(jìn)行聚合,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型。與現(xiàn)有技術(shù)相比,本發(fā)明提供的訓(xùn)練方法可有效克服現(xiàn)有的分布并行強(qiáng)化學(xué)習(xí)算法負(fù)載不均衡、單點失效等缺陷。
技術(shù)領(lǐng)域
本發(fā)明涉及強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域,尤其是一種基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法及系統(tǒng)。
背景技術(shù)
強(qiáng)化學(xué)習(xí)算法由于其在可靠性、計算速度和資源利用上的優(yōu)越性,已經(jīng)在強(qiáng)化學(xué)習(xí)領(lǐng)域有著越來越多的探索與應(yīng)用,然而強(qiáng)化學(xué)習(xí)算法的訓(xùn)練過程需要大量的訓(xùn)練樣本,并且模型參數(shù)的收斂速度緩慢,影響了強(qiáng)化學(xué)習(xí)算法的實用價值。為了提高強(qiáng)化學(xué)習(xí)的收斂速度,一種常見的分布并行途徑是利用大量的節(jié)點并行生成訓(xùn)練樣本,并推送給訓(xùn)練節(jié)點,這種方式提升了樣本生成速度,相對于單個節(jié)點而言能夠提升樣本的供給效率。然而,模型參數(shù)訓(xùn)練過程仍然受限于單個節(jié)點的處理速度,收斂速度仍然較慢;另一種常見的分布并行途徑是將模型訓(xùn)練分布到多個節(jié)點,每個節(jié)點利用不同的樣本更新模型參數(shù),并將更新后的模型參數(shù)推到一個中心節(jié)點,中心結(jié)點聚合每個節(jié)點的模型參數(shù),并重新推送給各個節(jié)點,這種方式下中心節(jié)點的負(fù)載較重,并且容易產(chǎn)生單點失效問題。
發(fā)明內(nèi)容
本發(fā)明提供一種基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法及系統(tǒng),用于克服現(xiàn)有的分布并行強(qiáng)化學(xué)習(xí)算法負(fù)載不均衡、單點失效等缺陷。
為實現(xiàn)上述目的,本發(fā)明提出一種基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法,包括:
根據(jù)消息中間件,構(gòu)建聊天室架構(gòu)的消息共享機(jī)制;所述消息共享機(jī)制是所述聊天室架構(gòu)中多個節(jié)點通過所述消息中間件進(jìn)行消息共享;
將預(yù)先設(shè)置的強(qiáng)化學(xué)習(xí)模型的局部模型分別部署在各個所述節(jié)點中,通過各個所述節(jié)點產(chǎn)生的訓(xùn)練樣本分別對各個所述節(jié)點中部署的局部模型進(jìn)行訓(xùn)練,得到各個局部模型的更新參數(shù);
將所述更新參數(shù)保存為參數(shù)消息,并將所述參數(shù)消息利用所述消息中間件共享至所述聊天室架構(gòu)中的其他所述節(jié)點;
獲取其他所述節(jié)點中的參數(shù)消息,將從其他所述節(jié)點中獲取的參數(shù)消息與當(dāng)前節(jié)點的參數(shù)消息進(jìn)行聚合,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型。
為實現(xiàn)上述目的,本發(fā)明還提出一種基于聊天室架構(gòu)的分布并行強(qiáng)化學(xué)習(xí)模型訓(xùn)練系統(tǒng),包括:
機(jī)制構(gòu)建模塊,用于根據(jù)消息中間件,構(gòu)建聊天室架構(gòu)的消息共享機(jī)制;所述消息共享機(jī)制是所述聊天室架構(gòu)中多個節(jié)點通過所述消息中間件進(jìn)行消息共享;
參數(shù)更新模塊,用于將預(yù)先設(shè)置的強(qiáng)化學(xué)習(xí)模型的局部模型分別部署在各個所述節(jié)點中,通過各個所述節(jié)點產(chǎn)生的訓(xùn)練樣本分別對各個所述節(jié)點中部署的局部模型進(jìn)行訓(xùn)練,得到各個局部模型的更新參數(shù);
消息共享模塊,用于將所述更新參數(shù)保存為參數(shù)消息,并將所述參數(shù)消息利用所述消息中間件共享至所述聊天室架構(gòu)中的其他所述節(jié)點;
聚合模塊,用于獲取其他所述節(jié)點中的參數(shù)消息,將從其他所述節(jié)點中獲取的參數(shù)消息與當(dāng)前節(jié)點的參數(shù)消息進(jìn)行聚合,得到訓(xùn)練后的強(qiáng)化學(xué)習(xí)模型。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果有:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué),未經(jīng)中國人民解放軍國防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010537848.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種用戶獲取聊天室歷史記錄的方法和聊天室業(yè)務(wù)系統(tǒng)
- 一種創(chuàng)建網(wǎng)絡(luò)聊天平臺的方法及系統(tǒng)
- 一種管理聊天室的方法及裝置
- 請求消息處理方法、聊天室消息服務(wù)器及聊天室系統(tǒng)
- 一種自適應(yīng)房間人數(shù)的聊天室配置方法及聊天室系統(tǒng)
- 顯示聊天室列表的方法及介質(zhì)
- 以使用程度為基礎(chǔ)處理聊天室的方法、系統(tǒng)及非暫時性計算機(jī)可讀記錄介質(zhì)
- 顯示與即時通訊軟件應(yīng)用程序相關(guān)的聊天室的方法及裝置
- 用于使消息應(yīng)用程序之聊天室失效之電子裝置、方法及計算機(jī)可讀記錄介質(zhì)
- 信息展示方法、裝置、電子設(shè)備及存儲介質(zhì)





