日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法在審

專利信息
申請(qǐng)?zhí)枺?/td> 202210508557.0 申請(qǐng)日: 2022-05-11
公開(kāi)(公告)號(hào): CN114626499A 公開(kāi)(公告)日: 2022-06-14
發(fā)明(設(shè)計(jì))人: 吳超;羅雙;李皓;王永恒 申請(qǐng)(專利權(quán))人: 之江實(shí)驗(yàn)室;浙江大學(xué)
主分類號(hào): G06N3/00 分類號(hào): G06N3/00;G06N20/00
代理公司: 杭州求是專利事務(wù)所有限公司 33200 代理人: 鄭海峰
地址: 310023 浙江省杭州市余*** 國(guó)省代碼: 浙江;33
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 稀疏 注意力 輔助 決策 嵌入式 智能 強(qiáng)化 學(xué)習(xí)方法
【說(shuō)明書(shū)】:

發(fā)明公開(kāi)了一種用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法,屬于強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域。初始化多智能體的效用函數(shù)網(wǎng)絡(luò)參數(shù)、混合網(wǎng)絡(luò)參數(shù)和目標(biāo)混合網(wǎng)絡(luò)參數(shù);獲取每一個(gè)智能體的自注意力輸出和稀疏化注意力輸出;使用門控循環(huán)單元模塊編碼當(dāng)前觀測(cè)輸出,計(jì)算本地常規(guī)效用函數(shù)和本地稀疏效用函數(shù),分別輸入到混合網(wǎng)絡(luò)中,各自擬合得到常規(guī)全局價(jià)值函數(shù)和稀疏全局價(jià)值函數(shù),逐漸降低常規(guī)全局價(jià)值函數(shù)的權(quán)重,完成強(qiáng)化學(xué)習(xí)的訓(xùn)練。在決策推理階段,各個(gè)智能體根據(jù)本地觀測(cè)和自身效用函數(shù)來(lái)選擇動(dòng)作輸出給環(huán)境,從而與環(huán)境進(jìn)行交互。本發(fā)明可以嵌入到任何基于價(jià)值函數(shù)的MARL框架中,提升智能體決策的效率和精度。

技術(shù)領(lǐng)域

本發(fā)明屬于強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法。

背景技術(shù)

多智能體強(qiáng)化學(xué)習(xí)(MARL)為多個(gè)智能體共同解決復(fù)雜的順序決策問(wèn)題提供了一個(gè)框架,并且在機(jī)器人博弈、交通信號(hào)燈控制、自動(dòng)駕駛等領(lǐng)域有著非常廣泛的應(yīng)用。目前MARL中智能體間的關(guān)系可以分為完全合作型、完全競(jìng)爭(zhēng)型和非完全合作非完全競(jìng)爭(zhēng)型。

目前主流的MARL訓(xùn)練框架是采用集中式訓(xùn)練分布式執(zhí)行(CTDE)框架,在集中訓(xùn)練階段中,智能體的決策模型可以訪問(wèn)全局狀態(tài)信息以幫助其更好的探索不同的策略,但是在推理階段中,智能體僅僅根據(jù)自己的局部觀測(cè)進(jìn)行決策。CTDE框架執(zhí)行的原則是個(gè)體-全局-最大值原則(IGM),其保證了個(gè)體決策最優(yōu)與全局決策最優(yōu)之間的一致性,智能體可以通過(guò)最大化個(gè)體的效用函數(shù)從而使得整體團(tuán)隊(duì)獲得最優(yōu)的全局回報(bào)。因此在合作型MARL中,提升個(gè)體的效用函數(shù)會(huì)使得整體受益。

現(xiàn)有的基于價(jià)值函數(shù)的方法主要是VDN、QMIX、QPLEX等。VDN將智能體本地效用函數(shù)進(jìn)行求和來(lái)獲取全局價(jià)值函數(shù)。由于直接求和的方式使得表達(dá)因子分解能力較差,QMIX對(duì)VDN進(jìn)行了改進(jìn),通過(guò)混合網(wǎng)絡(luò)對(duì)智能體本地效用函數(shù)進(jìn)行非線性聚合,在保持個(gè)體和全局單調(diào)性約束的前提下,根據(jù)全局狀態(tài)信息生成權(quán)重。隨后QPLEX引入基于優(yōu)勢(shì)函數(shù)的方法,將本地效用函數(shù)Q拆解為狀態(tài)價(jià)值函數(shù)V和單獨(dú)的動(dòng)作價(jià)值函數(shù)A,從而減小狀態(tài)對(duì)決策的影響,更加關(guān)注不同動(dòng)作帶來(lái)的收益。上述基于價(jià)值函數(shù)的方法主要存在以下問(wèn)題:

(1)改進(jìn)主要是關(guān)于如何將智能體本地的效用函數(shù)聚合成全局價(jià)值函數(shù),沒(méi)有關(guān)注對(duì)智能體本身網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)。由于隨著MARL環(huán)境中智能體數(shù)目的增多,聯(lián)合動(dòng)作空間逐漸增大,導(dǎo)致智能體的探索更加困難。

(2)智能體通過(guò)自身觀測(cè)進(jìn)行決策,但由于智能體之間的交互是稀疏的,在同一時(shí)刻無(wú)需關(guān)注所有的個(gè)體,導(dǎo)致觀測(cè)中的不同個(gè)體對(duì)決策的影響力是不同的,且重要性隨著時(shí)間變化而改變。

(3)注意力機(jī)制的直接引入有利于幫助智能體對(duì)不同的個(gè)體分配不同的注意力,但由于傳統(tǒng)的注意力機(jī)制采用softmax激活函數(shù),無(wú)法完全忽略不相關(guān)個(gè)體;然而若直接采用稀疏化方法對(duì)不相關(guān)實(shí)體置零,則會(huì)使得智能體無(wú)法探索更多的策略,且訓(xùn)練初期智能體模型難以分辨哪些個(gè)體是更加重要的。

發(fā)明內(nèi)容

為了克服現(xiàn)有技術(shù)的缺陷,解決多智能體強(qiáng)化學(xué)習(xí)中隨著智能體數(shù)目增多導(dǎo)致聯(lián)合動(dòng)作空間過(guò)大、探索困難的問(wèn)題,本發(fā)明提出了一種用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法,在智能體效用函數(shù)中引入了稀疏化注意力機(jī)制作為輔助決策,在保證沒(méi)有信息丟失的前提下幫助智能體關(guān)注視野范圍內(nèi)對(duì)決策具有更重要影響力的個(gè)體,引導(dǎo)智能體進(jìn)行科學(xué)決策,從而提升智能體決策的效率和精度。由于本發(fā)明是對(duì)智能體本地效用函數(shù)進(jìn)行的改進(jìn),因此可以嵌入到任何基于價(jià)值函數(shù)的MARL框架中,具有十分廣泛的應(yīng)用。

本發(fā)明是通過(guò)下述技術(shù)方案實(shí)現(xiàn)的:

一種用稀疏化注意力輔助決策的嵌入式多智能體強(qiáng)化學(xué)習(xí)方法,包括以下步驟:

步驟1:初始化多智能體的效用函數(shù)網(wǎng)絡(luò)參數(shù)、混合網(wǎng)絡(luò)參數(shù)和目標(biāo)混合網(wǎng)絡(luò)參數(shù);

步驟2:將每一個(gè)智能體當(dāng)前時(shí)刻的本地觀測(cè)進(jìn)行編碼,得到本地觀測(cè)編碼向量,分別利用自注意力和稀疏注意力獲取每一個(gè)智能體的自注意力輸出和稀疏化注意力輸出;

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于之江實(shí)驗(yàn)室;浙江大學(xué),未經(jīng)之江實(shí)驗(yàn)室;浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202210508557.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說(shuō)明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū);

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 999久久国精品免费观看网站| 国产一区二区精华| 欧美一级免费在线视频| 欧美日韩一区二区高清| 天干天干天干夜夜爽av| 国产一区日韩在线| 中文字幕日本一区二区| 99国产超薄丝袜足j在线观看| 真实的国产乱xxxx在线91| 欧美一区二区三区不卡视频| 精品国产一区二区三区忘忧草| 亚洲国产精品入口| 国产69精品久久99不卡免费版| 国产在线一卡| 中文乱码在线视频| 国产精品久久91| 91精品国产影片一区二区三区| 国产日韩麻豆| 欧美日韩综合一区| 456亚洲精品| 亚洲国产精品91| 999亚洲国产精| 国产一区二区三区久久久| 国产日韩麻豆| 日韩av在线网址| 欧美一区二区三区中文字幕| 91精品中综合久久久婷婷| 日本久久不卡| 欧美3p激情一区二区三区猛视频| 日本一区二区三区免费视频| 中文字幕在线视频一区二区| 日本一区二区三区电影免费观看| 国产又黄又硬又湿又黄| 日韩中文字幕一区二区在线视频| 国产一区观看| 欧美一区二区三区在线视频观看| 国产精品视频久久久久久 | 国产乱老一区视频| 欧美在线播放一区| 国产精品电影一区| 96国产精品视频| 中文字幕日本一区二区| 国产一区二区二| 日本一区二区在线电影| 国产日韩一区二区三免费| 欧美一区二三区人人喊爽| 青苹果av| 亚洲乱小说| 亚洲三区在线| 日韩av不卡一区| 亚洲va欧美va国产综合先锋| 欧美三级午夜理伦三级老人| 超碰97国产精品人人cao| 免费**毛片| 日韩av三区| 国产一区激情| 激情久久一区二区| 久久狠狠高潮亚洲精品| 欧美一区二区三区白人| 香蕉av一区| 午夜激情电影在线播放| 97国产精品久久| 日本精品一区视频| 夜夜嗨av色一区二区不卡| 亚洲欧美另类综合| 欧美精品在线观看视频| 一区二区三区电影在线观看| 三级电影中文| 日韩精品中文字幕在线| 国产日韩欧美一区二区在线观看| 日本三级香港三级网站| 性欧美一区二区| 欧美3p激情一区二区三区猛视频| 亚洲欧洲日韩在线| 欧美国产在线看| 国产精品日产欧美久久久久| 午夜电影一区| 少妇av一区二区三区| 国产欧美视频一区二区三区| 亚洲码在线| 艳妇荡乳欲伦2| 欧美日韩国产一二| 国产伦精品一区二区三区免费下载| 黄色国产一区二区| 亚洲少妇一区二区| 精品国产一区二区三区在线| 日本丰满岳妇伦3在线观看| 国产一区二区三区黄| 中文无码热在线视频| 日本一二三区视频在线| 国产91视频一区二区| 日韩精品一区在线观看| 午夜看片在线| 日韩精品一区在线视频| 狠狠色狠狠色综合日日五| 国产精品二十区| 色综合久久精品| 国产精品亚洲精品一区二区三区| 国产1区在线观看| 免费a级毛片18以上观看精品| 欧美日韩卡一卡二| 最新av中文字幕| 午夜精品一区二区三区在线播放| 精品在线观看一区二区| 欧美乱码精品一区二区三| 久久久久一区二区三区四区| 国产一区二区三区小说| 国产精品视频免费一区二区| 日韩偷拍精品| 鲁丝一区二区三区免费观看| 国产色午夜婷婷一区二区三区| 狠狠躁夜夜| 亚洲一区中文字幕| 欧美视频1区| 国产精品久久久久久久久久久不卡| 91午夜在线观看| 国产欧美性| 国产精品无码专区在线观看| 中文字幕av一区二区三区高| 欧洲在线一区二区| 午夜av资源| 国产精品美女久久久免费| 午夜亚洲国产理论片一二三四| 99国产精品永久免费视频| 91亚洲欧美强伦三区麻豆| 亚洲乱玛2021| 亚洲少妇中文字幕| 久久国产精品免费视频| 日本精品一二区| 中日韩欧美一级毛片| 精品国产1区2区3区| 91片在线观看| 免费毛片**| 精品国产鲁一鲁一区二区三区| 亚洲精品无吗| 91精品综合在线观看| 久久精品视频中文字幕| 日本三级不卡视频| 午夜剧场一区| 国产精品网站一区| 国产区一区| 欧美日韩一区不卡| 午夜无人区免费网站| 亚洲欧美一卡二卡| 国产精品久久久不卡| 久久久久亚洲| 91久久久久久亚洲精品禁果| 欧美日韩激情一区| 亚洲欧美另类久久久精品2019| 国产在线精品一区| 99三级视频| 欧美激情综合在线| 欧美一区二三区| 国产精品18久久久久白浆| 久久99精品国产麻豆宅宅| 日本一区二区三区免费在线| 视频国产一区二区| 国产69精品久久久久孕妇不能看| 久久久中精品2020中文| 亚日韩精品| 欧美日韩一区二区三区不卡视频| 国产精品二区在线| 91丝袜国产在线播放| 69精品久久| 毛片大全免费看| 夜夜躁日日躁狠狠躁| 国产精品一区二区人人爽| 亚洲精品一品区二品区三品区| 欧美激情国产一区| 扒丝袜网www午夜一区二区三区 | 久久国产精彩视频| 精品国产一区二区三区四区vr| 福利电影一区二区三区| 国产偷久久一区精品69| 欧美精品久久一区| 亚洲欧美一区二区精品久久久| 国产精品黑色丝袜的老师| 日韩欧美高清一区| 欧美激情精品一区| 国产一区二区在线观| 国产精品欧美一区二区视频| 鲁丝一区二区三区免费观看| 久久国产精品麻豆| 欧美乱妇在线视频播放| 日韩精品一二区| 一级久久精品| 欧美一区二粉嫩精品国产一线天| 日本道欧美一区二区aaaa| 亚洲午夜国产一区99re久久| 亚洲一区二区三区加勒比| 日韩av一区二区在线播放| 97精品久久人人爽人人爽| 久久久久亚洲精品| 久久99国产综合精品| 亚洲欧美国产精品va在线观看| 香蕉视频在线观看一区二区| 色婷婷精品久久二区二区6| 久久国产欧美一区二区免费| 精品99免费视频| 久久69视频| 欧美精品乱码视频一二专区 | 日本看片一区二区三区高清| 欧美日韩三区二区| 国产视频二区| 91嫩草入口| 九九热国产精品视频| 夜夜躁日日躁狠狠躁| 国内精品久久久久久久星辰影视| 狠狠躁夜夜躁| 偷拍久久精品视频| 国产精品一区二区6| 99精品欧美一区二区三区美图| 久久99久久99精品免观看软件| 一区二区三区四区视频在线| 窝窝午夜理伦免费影院| 狠狠色噜噜狠狠狠888奇米| 李采潭无删减版大尺度| 国产在线拍揄自揄拍| 亚洲欧美国产精品va在线观看| 久久久精品99久久精品36亚| 综合久久激情| 91精品视频在线观看免费| 中文字幕在线一区二区三区 | 国产69精品久久久久9999不卡免费| 亚洲欧美日韩在线看| 国产一区日韩欧美| 欧美日韩中文不卡| 欧美乱妇高清无乱码| 欧美三区二区一区| 色综合久久久久久久粉嫩| 国产真实一区二区三区| 午夜精品影视| 日本三级香港三级网站| 99精品黄色| 久久99久国产精品黄毛片入口| 亚洲精品色婷婷| 国产欧美一区二区三区在线播放| 久久影视一区二区| 午夜毛片在线看| 日韩亚洲精品视频| 少妇**毛片| 一区二区中文字幕在线| 国产欧美精品久久| 国产精品自拍在线| 国产二区不卡| 国产品久久久久久噜噜噜狼狼|