[發(fā)明專(zhuān)利]一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)及方法在審
| 申請(qǐng)?zhí)枺?/td> | 202011032658.2 | 申請(qǐng)日: | 2020-09-27 |
| 公開(kāi)(公告)號(hào): | CN112199154A | 公開(kāi)(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計(jì))人: | 楊理想;王云甘;張僑;王銀瑞;范鵬煒 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南京星耀智能科技有限公司 |
| 主分類(lèi)號(hào): | G06F9/455 | 分類(lèi)號(hào): | G06F9/455;G06F9/54;G06N20/00;H04L29/08 |
| 代理公司: | 南京中律知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32341 | 代理人: | 祝坤 |
| 地址: | 210000 江蘇省南京市經(jīng)濟(jì)*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分布式 協(xié)同 采樣 中心 優(yōu)化 強(qiáng)化 學(xué)習(xí) 訓(xùn)練 系統(tǒng) 方法 | ||
本發(fā)明提供了一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng),包括強(qiáng)化學(xué)習(xí)算法模塊、優(yōu)先級(jí)隊(duì)列緩存模塊、遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊、中心式優(yōu)化模塊、分布式機(jī)器,同時(shí)還提供了上述系統(tǒng)的訓(xùn)練方法,是通過(guò)對(duì)多組分布式采樣機(jī),采集仿真環(huán)境實(shí)例數(shù)據(jù)庫(kù)中多組環(huán)境案例,進(jìn)行與服務(wù)端之間的信息交互,輸出對(duì)應(yīng)環(huán)境案例的軌跡數(shù)據(jù)給客戶(hù)端;再通過(guò)強(qiáng)化學(xué)習(xí)算法模塊的進(jìn)行配置強(qiáng)化學(xué)習(xí)算法模型、初始化參數(shù)該系統(tǒng),還提供了上述系統(tǒng)的方法是通過(guò)分布式協(xié)同采樣、C/S架構(gòu)模式,結(jié)合獎(jiǎng)勵(lì)回溯技術(shù),解決強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)滿(mǎn)足大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練問(wèn)題,具備優(yōu)秀的普適性,較高的采樣效率。
技術(shù)領(lǐng)域
本發(fā)明屬于訓(xùn)練技術(shù)領(lǐng)域,特別涉及一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)及方法。
背景技術(shù)
強(qiáng)化學(xué)習(xí)是用于描述和解決智能體與環(huán)境交互過(guò)程中通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的技術(shù),其不要求預(yù)先給定任何數(shù)據(jù),而是通過(guò)接受環(huán)境對(duì)動(dòng)作的獎(jiǎng)勵(lì)(反饋)獲得學(xué)習(xí)信息并更新模型參數(shù)。因此便決定了強(qiáng)化學(xué)習(xí)需要大量的“智能體-環(huán)境”交互的數(shù)據(jù)進(jìn)行訓(xùn)練,此外,針對(duì)不同的問(wèn)題規(guī)模,其訓(xùn)練所需的數(shù)據(jù)量與問(wèn)題規(guī)模呈指數(shù)級(jí)增長(zhǎng)。
現(xiàn)有的基礎(chǔ)強(qiáng)化學(xué)習(xí)技術(shù)往往僅適用于單機(jī)采樣與單機(jī)訓(xùn)練,其不能很好地滿(mǎn)足大規(guī)模的訓(xùn)練需求。在現(xiàn)有的一些強(qiáng)化學(xué)習(xí)框架中(如OpenAI提出的baselines、DeepMind提出的Horizon平臺(tái)等),往往“訓(xùn)練控制權(quán)”掌握在算法手中,該類(lèi)框架需要使用仿真環(huán)境提供的控制接口,如果仿真環(huán)境沒(méi)有提供相應(yīng)的“重置環(huán)境”等控制接口,該類(lèi)框架與仿真環(huán)境就無(wú)法結(jié)合,這極大地限制了強(qiáng)化學(xué)習(xí)框架的普適能力。
與此同時(shí),強(qiáng)化學(xué)習(xí)往往會(huì)面臨“延遲獎(jiǎng)勵(lì)的問(wèn)題”,這是由仿真環(huán)境本身決定的,而強(qiáng)化學(xué)習(xí)算法需要根據(jù)仿真環(huán)境當(dāng)前運(yùn)行的效果給出即時(shí)獎(jiǎng)勵(lì),這就促使一些學(xué)者研究如何通過(guò)算法來(lái)解決或者緩解“延遲獎(jiǎng)勵(lì)”問(wèn)題,但效果往往不明顯。
另外,現(xiàn)有的分布式強(qiáng)化學(xué)習(xí)系統(tǒng)往往在系統(tǒng)中心設(shè)置一個(gè)獨(dú)一份的智能體實(shí)例,然后通過(guò)通信手段,然后將該實(shí)例與分布式計(jì)算機(jī)上的每一份環(huán)境進(jìn)行交互,所有的交互數(shù)據(jù)傳回給中心計(jì)算機(jī)的智能體實(shí)例,通過(guò)該實(shí)例進(jìn)行動(dòng)作的獲取與訓(xùn)練。這樣的分布式強(qiáng)化學(xué)習(xí)系統(tǒng)極大的受限于網(wǎng)絡(luò)通信頻率,往往不能最大限度地發(fā)揮出智能體訓(xùn)練過(guò)程中的計(jì)算機(jī)性能。
發(fā)明內(nèi)容
為了解決上述技術(shù)難題,本發(fā)明提供了一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng),技術(shù)方案具體為:包括強(qiáng)化學(xué)習(xí)算法模塊、優(yōu)先級(jí)隊(duì)列緩存模塊、遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊、中心式優(yōu)化模塊、分布式機(jī)器;
所述強(qiáng)化學(xué)習(xí)算法模塊,用于集成存儲(chǔ)的強(qiáng)化學(xué)習(xí)算法模型,通過(guò)自定義的算法接口進(jìn)行調(diào)用和切換強(qiáng)化學(xué)習(xí)算法;
所述優(yōu)先級(jí)隊(duì)列緩存模塊,通過(guò)軌跡優(yōu)先級(jí)設(shè)置方式,進(jìn)行隊(duì)列中待處理的軌跡數(shù)據(jù)存儲(chǔ)及排序;
所述遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊,通過(guò)將優(yōu)先級(jí)隊(duì)列緩存模塊輸出的軌跡(S,a,r)中r進(jìn)行修改處理,生成新的軌跡(S`,a`,r`),其中S和S`分別是軌跡、新的軌跡下的環(huán)境狀態(tài),即仿真環(huán)境中對(duì)當(dāng)前狀態(tài)的量化描述;a和a`分別是軌跡、新的軌跡下的智能體決策的動(dòng)作,即對(duì)仿真環(huán)境中智能體的控制;r和r`分別是軌跡、新的軌跡下的即時(shí)獎(jiǎng)勵(lì),其中獎(jiǎng)勵(lì)是一個(gè)標(biāo)量,描述了對(duì)某種狀態(tài)下采用某種動(dòng)作的好壞程度;
所述分布式機(jī)器設(shè)置了多個(gè)分布式采樣機(jī)和一個(gè)中心式訓(xùn)練服務(wù)器,在每一個(gè)分布式采樣機(jī)器上均對(duì)應(yīng)一份仿真環(huán)境;
所述中心式優(yōu)化模塊,通過(guò)采集分布式機(jī)器的軌跡數(shù)據(jù)和優(yōu)先級(jí)隊(duì)列緩存模塊的軌跡數(shù)據(jù),進(jìn)行數(shù)據(jù)篩選,通過(guò)強(qiáng)化學(xué)習(xí)算法模塊的強(qiáng)化學(xué)習(xí)算法模型訓(xùn)練。
作為改進(jìn),所述遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊,具體的方法為,通過(guò)對(duì)S仿真環(huán)境的處理,按照由后到前的原則,對(duì)軌跡中的r進(jìn)行回溯,修改為新的獎(jiǎng)勵(lì)值,修正軌跡,進(jìn)行模型收斂處理。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京星耀智能科技有限公司,未經(jīng)南京星耀智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011032658.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 一種分布式處理方法、系統(tǒng)及其裝置
- 基于分布式系統(tǒng)的數(shù)據(jù)訪(fǎng)問(wèn)方法和裝置
- 一種基于分布式鎖加載分布式任務(wù)的方法以及裝置
- 一種分布式光伏集群系統(tǒng)
- 一種分布式能源遠(yuǎn)程監(jiān)測(cè)管理系統(tǒng)及方法
- 任務(wù)處理方法和分布式計(jì)算框架
- 一種分布式電源監(jiān)控系統(tǒng)
- 一種基于區(qū)塊鏈的聯(lián)盟信任分布式身份認(rèn)證方法及系統(tǒng)
- 分布式系統(tǒng)中分布式鎖調(diào)度方法及裝置
- 用于批處理的分布式鎖處理方法、裝置及系統(tǒng)
- 移動(dòng)通信終端的協(xié)同方法及其界面系統(tǒng)
- 業(yè)務(wù)協(xié)同流程配置、業(yè)務(wù)協(xié)同方法及裝置
- 一種基于健康檔案共享平臺(tái)的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
- 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
- 基于協(xié)同網(wǎng)關(guān)的跨域協(xié)同交互方法
- 一種生產(chǎn)協(xié)同管理方法及系統(tǒng)
- 云邊協(xié)同方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種智能辦公協(xié)同操作方法及系統(tǒng)
- 一種用于無(wú)人裝備的時(shí)間協(xié)同航跡規(guī)劃方法
- 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)





