日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專(zhuān)利]一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)及方法在審

專(zhuān)利信息
申請(qǐng)?zhí)枺?/td> 202011032658.2 申請(qǐng)日: 2020-09-27
公開(kāi)(公告)號(hào): CN112199154A 公開(kāi)(公告)日: 2021-01-08
發(fā)明(設(shè)計(jì))人: 楊理想;王云甘;張僑;王銀瑞;范鵬煒 申請(qǐng)(專(zhuān)利權(quán))人: 南京星耀智能科技有限公司
主分類(lèi)號(hào): G06F9/455 分類(lèi)號(hào): G06F9/455;G06F9/54;G06N20/00;H04L29/08
代理公司: 南京中律知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32341 代理人: 祝坤
地址: 210000 江蘇省南京市經(jīng)濟(jì)*** 國(guó)省代碼: 江蘇;32
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 分布式 協(xié)同 采樣 中心 優(yōu)化 強(qiáng)化 學(xué)習(xí) 訓(xùn)練 系統(tǒng) 方法
【說(shuō)明書(shū)】:

發(fā)明提供了一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng),包括強(qiáng)化學(xué)習(xí)算法模塊、優(yōu)先級(jí)隊(duì)列緩存模塊、遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊、中心式優(yōu)化模塊、分布式機(jī)器,同時(shí)還提供了上述系統(tǒng)的訓(xùn)練方法,是通過(guò)對(duì)多組分布式采樣機(jī),采集仿真環(huán)境實(shí)例數(shù)據(jù)庫(kù)中多組環(huán)境案例,進(jìn)行與服務(wù)端之間的信息交互,輸出對(duì)應(yīng)環(huán)境案例的軌跡數(shù)據(jù)給客戶(hù)端;再通過(guò)強(qiáng)化學(xué)習(xí)算法模塊的進(jìn)行配置強(qiáng)化學(xué)習(xí)算法模型、初始化參數(shù)該系統(tǒng),還提供了上述系統(tǒng)的方法是通過(guò)分布式協(xié)同采樣、C/S架構(gòu)模式,結(jié)合獎(jiǎng)勵(lì)回溯技術(shù),解決強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)滿(mǎn)足大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練問(wèn)題,具備優(yōu)秀的普適性,較高的采樣效率。

技術(shù)領(lǐng)域

本發(fā)明屬于訓(xùn)練技術(shù)領(lǐng)域,特別涉及一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng)及方法。

背景技術(shù)

強(qiáng)化學(xué)習(xí)是用于描述和解決智能體與環(huán)境交互過(guò)程中通過(guò)學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的技術(shù),其不要求預(yù)先給定任何數(shù)據(jù),而是通過(guò)接受環(huán)境對(duì)動(dòng)作的獎(jiǎng)勵(lì)(反饋)獲得學(xué)習(xí)信息并更新模型參數(shù)。因此便決定了強(qiáng)化學(xué)習(xí)需要大量的“智能體-環(huán)境”交互的數(shù)據(jù)進(jìn)行訓(xùn)練,此外,針對(duì)不同的問(wèn)題規(guī)模,其訓(xùn)練所需的數(shù)據(jù)量與問(wèn)題規(guī)模呈指數(shù)級(jí)增長(zhǎng)。

現(xiàn)有的基礎(chǔ)強(qiáng)化學(xué)習(xí)技術(shù)往往僅適用于單機(jī)采樣與單機(jī)訓(xùn)練,其不能很好地滿(mǎn)足大規(guī)模的訓(xùn)練需求。在現(xiàn)有的一些強(qiáng)化學(xué)習(xí)框架中(如OpenAI提出的baselines、DeepMind提出的Horizon平臺(tái)等),往往“訓(xùn)練控制權(quán)”掌握在算法手中,該類(lèi)框架需要使用仿真環(huán)境提供的控制接口,如果仿真環(huán)境沒(méi)有提供相應(yīng)的“重置環(huán)境”等控制接口,該類(lèi)框架與仿真環(huán)境就無(wú)法結(jié)合,這極大地限制了強(qiáng)化學(xué)習(xí)框架的普適能力。

與此同時(shí),強(qiáng)化學(xué)習(xí)往往會(huì)面臨“延遲獎(jiǎng)勵(lì)的問(wèn)題”,這是由仿真環(huán)境本身決定的,而強(qiáng)化學(xué)習(xí)算法需要根據(jù)仿真環(huán)境當(dāng)前運(yùn)行的效果給出即時(shí)獎(jiǎng)勵(lì),這就促使一些學(xué)者研究如何通過(guò)算法來(lái)解決或者緩解“延遲獎(jiǎng)勵(lì)”問(wèn)題,但效果往往不明顯。

另外,現(xiàn)有的分布式強(qiáng)化學(xué)習(xí)系統(tǒng)往往在系統(tǒng)中心設(shè)置一個(gè)獨(dú)一份的智能體實(shí)例,然后通過(guò)通信手段,然后將該實(shí)例與分布式計(jì)算機(jī)上的每一份環(huán)境進(jìn)行交互,所有的交互數(shù)據(jù)傳回給中心計(jì)算機(jī)的智能體實(shí)例,通過(guò)該實(shí)例進(jìn)行動(dòng)作的獲取與訓(xùn)練。這樣的分布式強(qiáng)化學(xué)習(xí)系統(tǒng)極大的受限于網(wǎng)絡(luò)通信頻率,往往不能最大限度地發(fā)揮出智能體訓(xùn)練過(guò)程中的計(jì)算機(jī)性能。

發(fā)明內(nèi)容

為了解決上述技術(shù)難題,本發(fā)明提供了一種基于分布式協(xié)同采樣中心式優(yōu)化的強(qiáng)化學(xué)習(xí)訓(xùn)練系統(tǒng),技術(shù)方案具體為:包括強(qiáng)化學(xué)習(xí)算法模塊、優(yōu)先級(jí)隊(duì)列緩存模塊、遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊、中心式優(yōu)化模塊、分布式機(jī)器;

所述強(qiáng)化學(xué)習(xí)算法模塊,用于集成存儲(chǔ)的強(qiáng)化學(xué)習(xí)算法模型,通過(guò)自定義的算法接口進(jìn)行調(diào)用和切換強(qiáng)化學(xué)習(xí)算法;

所述優(yōu)先級(jí)隊(duì)列緩存模塊,通過(guò)軌跡優(yōu)先級(jí)設(shè)置方式,進(jìn)行隊(duì)列中待處理的軌跡數(shù)據(jù)存儲(chǔ)及排序;

所述遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊,通過(guò)將優(yōu)先級(jí)隊(duì)列緩存模塊輸出的軌跡(S,a,r)中r進(jìn)行修改處理,生成新的軌跡(S`,a`,r`),其中S和S`分別是軌跡、新的軌跡下的環(huán)境狀態(tài),即仿真環(huán)境中對(duì)當(dāng)前狀態(tài)的量化描述;a和a`分別是軌跡、新的軌跡下的智能體決策的動(dòng)作,即對(duì)仿真環(huán)境中智能體的控制;r和r`分別是軌跡、新的軌跡下的即時(shí)獎(jiǎng)勵(lì),其中獎(jiǎng)勵(lì)是一個(gè)標(biāo)量,描述了對(duì)某種狀態(tài)下采用某種動(dòng)作的好壞程度;

所述分布式機(jī)器設(shè)置了多個(gè)分布式采樣機(jī)和一個(gè)中心式訓(xùn)練服務(wù)器,在每一個(gè)分布式采樣機(jī)器上均對(duì)應(yīng)一份仿真環(huán)境;

所述中心式優(yōu)化模塊,通過(guò)采集分布式機(jī)器的軌跡數(shù)據(jù)和優(yōu)先級(jí)隊(duì)列緩存模塊的軌跡數(shù)據(jù),進(jìn)行數(shù)據(jù)篩選,通過(guò)強(qiáng)化學(xué)習(xí)算法模塊的強(qiáng)化學(xué)習(xí)算法模型訓(xùn)練。

作為改進(jìn),所述遠(yuǎn)端獎(jiǎng)勵(lì)回溯模塊,具體的方法為,通過(guò)對(duì)S仿真環(huán)境的處理,按照由后到前的原則,對(duì)軌跡中的r進(jìn)行回溯,修改為新的獎(jiǎng)勵(lì)值,修正軌跡,進(jìn)行模型收斂處理。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京星耀智能科技有限公司,未經(jīng)南京星耀智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202011032658.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

×

專(zhuān)利文獻(xiàn)下載

說(shuō)明:

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū);

2、支持發(fā)明專(zhuān)利 、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利(升級(jí)中);

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專(zhuān)利網(wǎng)在線(xiàn)咨詢(xún)

周一至周五 9:00-18:00

咨詢(xún)?cè)诰€(xiàn)客服咨詢(xún)?cè)诰€(xiàn)客服
tel code back_top
主站蜘蛛池模板: 亚洲国产精品精品| 国产1区在线观看| 欧美高清极品videossex| 欧美在线视频精品| 性色av色香蕉一区二区| 久久精品麻豆| 一区二区三区欧美精品| 国产精品色婷婷99久久精品| 三上悠亚亚洲精品一区二区 | 高清欧美xxxx| 美女被羞羞网站视频软件| 精品a在线| 日本看片一区二区三区高清| 午夜影院一级片| 国产精品久久久久久久久久久久久久久久久久| 国产一区二区三区影院| 日韩精品免费播放| 国产精品二区一区| 99国产精品一区二区| 亚洲欧洲一区二区| 91精品系列| 99精品国产一区二区三区麻豆| 午夜亚洲影院| 久久午夜鲁丝片| 91麻豆精品国产91久久久久推荐资源 | 日韩av在线网| 国产在线一区二区视频| 欧美日韩一区二区三区在线播放| 国产区图片区一区二区三区| 19videosex性欧美69| 国产一级二级在线| 狠狠色噜噜狠狠狠狠2021免费| 亚洲欧美一区二区三区1000| 国产精品中文字幕一区二区三区| 国产一区欧美一区| 一色桃子av| 国产69精品久久久久按摩| 国产一区日韩一区| 香蕉视频在线观看一区二区| 国产88av| 国产免费一区二区三区网站免费| 久久久精品a| 视频一区二区三区欧美| 91热精品| 国产日韩欧美第一页| 国偷自产一区二区三区在线观看| 久久国产精品网站| 国产精品18久久久久白浆| 日本高清h色视频在线观看| 制服丝袜视频一区| 午夜国内精品a一区二区桃色| 久久九精品| 国产精品麻豆一区二区| 国产极品美女高潮无套久久久| 99久久免费精品视频| 欧美二区在线视频| 国产69精品久久777的优势| 午夜黄色大片| 欧美一区二区三区中文字幕| 国产亚洲精品久久19p| 狠狠色噜噜狠狠狠四色米奇| 日韩一级免费视频| 国产精品视频一区二区二| 亚洲第一天堂无码专区| 91久久一区二区| 91久久精品国产91久久性色tv| 色综合久久88| 欧美乱大交xxxxx古装| 国产伦高清一区二区三区| 少妇高潮大叫喷水| 四虎国产精品久久| 亚洲国产一区二区精品| 日韩中文字幕一区二区在线视频| 国产一区第一页| 日韩久久电影| 少妇av一区二区三区| 久久久精品免费看| 亚洲国产欧美一区二区三区丁香婷| 欧美在线视频三区| 国产综合亚洲精品| 亚洲免费永久精品国产| 艳妇荡乳欲伦2| 亚洲国产精品女主播| 欧美资源一区| 午夜电影三级| 久久久久久亚洲精品中文字幕| 91一区在线观看| 欧美日韩国产精品综合| 欧美一区二区在线不卡| 在线电影一区二区| 欧美在线视频二区| 91国偷自产一区二区介绍| 精品少妇一区二区三区| 国精产品一二四区在线看| 日韩国产欧美中文字幕| 国产一区二区电影| 处破大全欧美破苞二十三| 99久久婷婷国产综合精品草原| 国产伦理精品一区二区三区观看体验 | 国产日韩欧美网站| 国产真实一区二区三区| 国产69精品久久久久777糖心| 99精品国产99久久久久久97| 国产精品视频久久久久久久 | 亚洲一级中文字幕| 欧美精选一区二区三区| 91久久久爱一区二区三区| 热久久国产| 日本一区二区三区中文字幕| 国产v亚洲v日韩v欧美v片| 日本精品一区在线| 对白刺激国产对白精品城中村| 亚洲欧美一区二区三区三高潮| 国产精品视频一区二区在线观看| 欧美一区二区三区三州| 久久国产欧美一区二区三区精品| 日韩精品一区二区av| 亚洲精品国产setv| 国产伦精品一区二区三 | 国产精品久久久久久久久久软件| 国产精品国产三级国产专播精品人| 亚洲精品欧美精品日韩精品| 亚洲国产精品一区在线观看| 国产欧美一区二区三区在线播放| 国产精品99一区二区三区| 国产精品免费专区| 国产精品999久久久| 福利片一区二区三区| 国产毛片精品一区二区| 国产精品一区二区免费视频| 久久夜色精品国产噜噜麻豆| 91精品综合在线观看| 国产精品一区二区麻豆| 国产在线一卡二卡| 国产精品一区二区在线观看| 国产91热爆ts人妖系列| 一区不卡av| 午夜黄色网址| 日本大码bbw肉感高潮 | 99国产精品一区二区| 国产免费一区二区三区四区五区| 久久久久国产精品嫩草影院| 日本久久丰满的少妇三区| 亚洲自偷精品视频自拍| 午夜av资源| 毛片大全免费看| 狠狠色噜噜狠狠狠狠综合久| 国产精品对白刺激久久久| 欧洲国产一区| 国产videosfree性另类| 国产剧情在线观看一区二区| 久久精品国产综合| 日本精品在线一区| 国产精品一二二区| 国产精品suv一区二区6| 久久一二区| 国产无遮挡又黄又爽又色视频 | 国产一二区精品| 日韩精品一区在线视频| 久爱精品视频在线播放| 国产精品高潮呻吟久| 欧美一区二区三区视频在线观看| 日本少妇一区二区三区| 国产精品亚洲二区| 色婷婷综合久久久久中文| 国产视频一区二区三区四区| 免费高潮又黄又色又爽视频| 欧美精品一区久久| 国产1区2| 午夜激情综合网| 国产一区二区麻豆| 午夜诱惑影院| 激情久久久| 狠狠色噜噜狠狠狠狠米奇7777| 久久夜靖品2区| 国产精品禁18久久久久久| 久久久久久亚洲精品| 91精品视频在线观看免费| 亚洲精品少妇一区二区| 999久久久国产精品| 夜夜躁狠狠躁日日躁2024| 久久久久亚洲最大xxxx| xoxoxo亚洲国产精品| 国产一区二区黄| 李采潭伦理bd播放| 日韩中文字幕一区二区在线视频| 日韩av免费网站| 少妇av一区二区三区| 久久久精品视频在线| 99久久精品免费看国产交换| 国产欧美一区二区精品性| 欧美日韩国产三区| 欧美日本91精品久久久久| 国产日韩欧美在线一区| 色噜噜日韩精品欧美一区二区| 国产精品一区亚洲二区日本三区 | 国产精品九九九九九九| 日本高清二区| 亚洲视频h| 日韩精品中文字幕在线| 国语对白老女人一级hd| 国产69精品久久久久久久久久| 欧美日韩国产精品一区二区三区| 国产精品v一区二区三区| 国产欧美日韩精品一区二区三区 | 久久久久久亚洲精品中文字幕| 午夜亚洲影院| 日韩精品福利片午夜免费观看| 色噜噜狠狠色综合中文字幕| 狠狠色很很在鲁视频| 日韩精品免费一区| 在线亚洲精品| 精品国产乱码久久久久久影片| 亚洲国产精品国自产拍久久| 亚洲国产精品精品| 欧美精品一区二区久久| 欧美日韩国产在线一区| 亚洲美女在线一区| 国产一级片网站| 色婷婷精品久久二区二区6| 中文字幕欧美另类精品亚洲| 中文字幕一区三区| 国内精品国产三级国产99| 伊人av综合网| 伊人久久婷婷色综合98网| 精品久久久久久亚洲综合网| 欧美高清视频一区二区三区| 午夜看片在线| 精品一区二区三区中文字幕| 久久久午夜爽爽一区二区三区三州| 欧美日韩亚洲三区| 欧洲国产一区| 国产69精品久久久久久久久久| 999久久国精品免费观看网站| 少妇在线看www| 强行挺进女警紧窄湿润| 国产精品亚发布| 久久国产精品麻豆| 少妇厨房与子伦在线观看| 97久久精品人人做人人爽| 国产免费观看一区| 日韩一区免费| 在线国产二区| 久久国产欧美一区二区三区免费| 国产精品suv一区二区6| 波多野结衣女教师电影|