[發(fā)明專(zhuān)利]一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)及方法在審

申請(qǐng)?zhí)枺?/td>	202011032658.2	申請(qǐng)日：	2020-09-27
公開(kāi)（公告）號(hào)：	CN112199154A	公開(kāi)（公告）日：	2021-01-08
發(fā)明（設(shè)計(jì)）人：	楊理想;王云甘;張僑;王銀瑞;范鵬煒	申請(qǐng)（專(zhuān)利權(quán)）人：	南京星耀智能科技有限公司
主分類(lèi)號(hào)：	G06F9/455	分類(lèi)號(hào)：	G06F9/455;G06F9/54;G06N20/00;H04L29/08
代理公司：	南京中律知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32341	代理人：	祝坤
地址：	210000 江蘇省南京市經(jīng)濟(jì)***	國(guó)省代碼：	江蘇;32
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于分布式協(xié)同采樣中心優(yōu)化強(qiáng)化學(xué)習(xí) 訓(xùn)練系統(tǒng) 方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

本發(fā)明提供了一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)，包括強(qiáng)化學(xué)習(xí)算法模塊、優(yōu)先級(jí)隊(duì)列緩存模塊、遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊、中心式優(yōu)化模塊、分布式機(jī)器，同時(shí)還提供了上述系統(tǒng)的訓(xùn)練方法，是通過(guò)對(duì)多組分布式采樣機(jī)，采集仿真環(huán)境實(shí)例數(shù)據(jù)庫(kù)中多組環(huán)境案例，進(jìn)行與服務(wù)端之間的信息交互，輸出對(duì)應(yīng)環(huán)境案例的軌跡數(shù)據(jù)給客戶(hù)端；再通過(guò)強(qiáng)化學(xué)習(xí)算法模塊的進(jìn)行配置強(qiáng)化學(xué)習(xí)算法模型、初始化參數(shù)該系統(tǒng)，還提供了上述系統(tǒng)的方法是通過(guò)分布式協(xié)同采樣、C/S架構(gòu)模式，結(jié)合獎(jiǎng)勵(lì)回溯技術(shù)，解決強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)滿(mǎn)足大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練問(wèn)題，具備優(yōu)秀的普適性，較高的采樣效率。

技術(shù)領(lǐng)域

本發(fā)明屬于訓(xùn)練技術(shù)領(lǐng)域，特別涉及一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)及方法。

背景技術(shù)

強(qiáng)化學(xué)習(xí)是用于描述和解決智能體與環(huán)境交互過(guò)程中通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的技術(shù)，其不要求預(yù)先給定任何數(shù)據(jù)，而是通過(guò)接受環(huán)境對(duì)動(dòng)作的獎(jiǎng)勵(lì)(反饋)獲得學(xué)習(xí)信息并更新模型參數(shù)。因此便決定了強(qiáng)化學(xué)習(xí)需要大量的“智能體-環(huán)境”交互的數(shù)據(jù)進(jìn)行訓(xùn)練，此外，針對(duì)不同的問(wèn)題規(guī)模，其訓(xùn)練所需的數(shù)據(jù)量與問(wèn)題規(guī)模呈指數(shù)級(jí)增長(zhǎng)。

現(xiàn)有的基礎(chǔ)強(qiáng)化學(xué)習(xí)技術(shù)往往僅適用于單機(jī)采樣與單機(jī)訓(xùn)練，其不能很好地滿(mǎn)足大規(guī)模的訓(xùn)練需求。在現(xiàn)有的一些強(qiáng)化學(xué)習(xí)框架中(如OpenAI提出的baselines、DeepMind提出的Horizon平臺(tái)等)，往往“訓(xùn)練控制權(quán)”掌握在算法手中，該類(lèi)框架需要使用仿真環(huán)境提供的控制接口，如果仿真環(huán)境沒(méi)有提供相應(yīng)的“重置環(huán)境”等控制接口，該類(lèi)框架與仿真環(huán)境就無(wú)法結(jié)合，這極大地限制了強(qiáng)化學(xué)習(xí)框架的普適能力。

與此同時(shí)，強(qiáng)化學(xué)習(xí)往往會(huì)面臨“延遲獎(jiǎng)勵(lì)的問(wèn)題”，這是由仿真環(huán)境本身決定的，而強(qiáng)化學(xué)習(xí)算法需要根據(jù)仿真環(huán)境當(dāng)前運(yùn)行的效果給出即時(shí)獎(jiǎng)勵(lì)，這就促使一些學(xué)者研究如何通過(guò)算法來(lái)解決或者緩解“延遲獎(jiǎng)勵(lì)”問(wèn)題，但效果往往不明顯。

另外，現(xiàn)有的分布式強(qiáng)化學(xué)習(xí)系統(tǒng)往往在系統(tǒng)中心設(shè)置一個(gè)獨(dú)一份的智能體實(shí)例，然后通過(guò)通信手段，然后將該實(shí)例與分布式計(jì)算機(jī)上的每一份環(huán)境進(jìn)行交互，所有的交互數(shù)據(jù)傳回給中心計(jì)算機(jī)的智能體實(shí)例，通過(guò)該實(shí)例進(jìn)行動(dòng)作的獲取與訓(xùn)練。這樣的分布式強(qiáng)化學(xué)習(xí)系統(tǒng)極大的受限于網(wǎng)絡(luò)通信頻率，往往不能最大限度地發(fā)揮出智能體訓(xùn)練過(guò)程中的計(jì)算機(jī)性能。

發(fā)明內(nèi)容

為了解決上述技術(shù)難題，本發(fā)明提供了一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)，技術(shù)方案具體為：包括強(qiáng)化學(xué)習(xí)算法模塊、優(yōu)先級(jí)隊(duì)列緩存模塊、遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊、中心式優(yōu)化模塊、分布式機(jī)器；

所述強(qiáng)化學(xué)習(xí)算法模塊，用于集成存儲(chǔ)的強(qiáng)化學(xué)習(xí)算法模型，通過(guò)自定義的算法接口進(jìn)行調(diào)用和切換強(qiáng)化學(xué)習(xí)算法；

所述優(yōu)先級(jí)隊(duì)列緩存模塊，通過(guò)軌跡優(yōu)先級(jí)設(shè)置方式，進(jìn)行隊(duì)列中待處理的軌跡數(shù)據(jù)存儲(chǔ)及排序；

所述遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊，通過(guò)將優(yōu)先級(jí)隊(duì)列緩存模塊輸出的軌跡(S，a，r)中r進(jìn)行修改處理，生成新的軌跡(S`，a`，r`)，其中S和S`分別是軌跡、新的軌跡下的環(huán)境狀態(tài)，即仿真環(huán)境中對(duì)當(dāng)前狀態(tài)的量化描述；a和a`分別是軌跡、新的軌跡下的智能體決策的動(dòng)作，即對(duì)仿真環(huán)境中智能體的控制；r和r`分別是軌跡、新的軌跡下的即時(shí)獎(jiǎng)勵(lì)，其中獎(jiǎng)勵(lì)是一個(gè)標(biāo)量，描述了對(duì)某種狀態(tài)下采用某種動(dòng)作的好壞程度；

所述分布式機(jī)器設(shè)置了多個(gè)分布式采樣機(jī)和一個(gè)中心式訓(xùn)練服務(wù)器，在每一個(gè)分布式采樣機(jī)器上均對(duì)應(yīng)一份仿真環(huán)境；

所述中心式優(yōu)化模塊，通過(guò)采集分布式機(jī)器的軌跡數(shù)據(jù)和優(yōu)先級(jí)隊(duì)列緩存模塊的軌跡數(shù)據(jù)，進(jìn)行數(shù)據(jù)篩選，通過(guò)強(qiáng)化學(xué)習(xí)算法模塊的強(qiáng)化學(xué)習(xí)算法模型訓(xùn)練。

作為改進(jìn)，所述遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊，具體的方法為，通過(guò)對(duì)S仿真環(huán)境的處理，按照由后到前的原則，對(duì)軌跡中的r進(jìn)行回溯，修改為新的獎(jiǎng)勵(lì)值，修正軌跡，進(jìn)行模型收斂處理。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京星耀智能科技有限公司，未經(jīng)南京星耀智能科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011032658.2/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

上一篇：數(shù)據(jù)庫(kù)冗余信息處理方法
下一篇：基于液晶透鏡和液晶微透鏡陣列的光束偏轉(zhuǎn)裝置及方法

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F9-00 程序控制裝置，例如，控制器
G06F9-02 .應(yīng)用有線(xiàn)連接的，例如，插頭板
G06F9-04 .應(yīng)用僅含程序指令的記錄載體的
G06F9-06 .應(yīng)用存入的程序的，即應(yīng)用處理設(shè)備的內(nèi)部存儲(chǔ)來(lái)接收程序并保持程序的
G06F9-22 ..微控制或微程序裝置
G06F9-30 ..執(zhí)行機(jī)器指令的裝置，例如指令譯碼

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

專(zhuān)利文獻(xiàn)下載

說(shuō)明：

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū)；

2、支持發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利（升級(jí)中）；

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】