[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110863195.2 | 申請(qǐng)日: | 2021-07-29 |
| 公開(kāi)(公告)號(hào): | CN113625561B | 公開(kāi)(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計(jì))人: | 張寅;王淑晗 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G05B13/04 | 分類號(hào): | G05B13/04;G06F30/27;G06N3/048;G06N3/08;G06N3/0464 |
| 代理公司: | 杭州求是專利事務(wù)所有限公司 33200 | 代理人: | 傅朝棟;張法高 |
| 地址: | 310058 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 協(xié)調(diào) 智能 體系 協(xié)作 控制 方法 | ||
1.一種基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法,其特征在于,包括如下步驟:
S1、針對(duì)待協(xié)作控制的多個(gè)機(jī)器人,將每個(gè)機(jī)器人視為多域協(xié)作場(chǎng)景中的一個(gè)智能體,對(duì)其進(jìn)行域的劃分;
S2、針對(duì)域劃分后的多域協(xié)作場(chǎng)景,基于圖網(wǎng)絡(luò)進(jìn)行多智能體建模,使全域智能體協(xié)作,形成包含集中式價(jià)值網(wǎng)絡(luò)及分散式動(dòng)作網(wǎng)絡(luò)的多智能體協(xié)作模型;所述分散式動(dòng)作網(wǎng)絡(luò)中,動(dòng)作網(wǎng)絡(luò)接收智能體的觀察作為輸入,輸出當(dāng)前所采取的動(dòng)作;所述集中式價(jià)值網(wǎng)絡(luò)接收每個(gè)智能體的觀察和動(dòng)作作為輸入,進(jìn)行域協(xié)調(diào)操作,并經(jīng)過(guò)圖卷積網(wǎng)絡(luò)提取鄰域節(jié)點(diǎn)信息,為每個(gè)智能體預(yù)測(cè)當(dāng)前狀態(tài)-動(dòng)作對(duì)的價(jià)值,用于更新集中價(jià)值網(wǎng)絡(luò)及分散動(dòng)作網(wǎng)絡(luò);且在模型中定義域協(xié)調(diào)損失函數(shù),用于指導(dǎo)域共識(shí)向量的表示學(xué)習(xí),使同一域中的智能體之間形成強(qiáng)協(xié)調(diào);
S3、使用集中訓(xùn)練、分散執(zhí)行的訓(xùn)練方式,對(duì)采用Actor-Critic框架的多智能體協(xié)作模型進(jìn)行訓(xùn)練;
S4、訓(xùn)練完成后,將模型中的各個(gè)動(dòng)作網(wǎng)絡(luò)作為策略網(wǎng)絡(luò)獨(dú)立執(zhí)行,輸入對(duì)應(yīng)智能體的觀察向量,輸出為對(duì)應(yīng)智能體的動(dòng)作向量并將其傳遞給對(duì)應(yīng)機(jī)器人,各機(jī)器人根據(jù)接收到的動(dòng)作向量進(jìn)行移動(dòng)控制,實(shí)現(xiàn)多機(jī)器人的協(xié)作控制。
2.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法,其特征在于,步驟S1中,所述多域協(xié)作場(chǎng)景包含多個(gè)合作型關(guān)系的子組;每一個(gè)子組作為一個(gè)域,由目標(biāo)是完成同一任務(wù)的多個(gè)智能體組成;不同子組在同一場(chǎng)景中的任務(wù)目標(biāo)不同,且整個(gè)場(chǎng)景中所有智能體之間需要進(jìn)行協(xié)調(diào)以避免沖突;多域協(xié)作場(chǎng)景中使用域信息矩陣DN×N標(biāo)記智能體之間的域關(guān)系,矩陣元素dij表示智能體i和智能體j之間的域關(guān)系,同域則置1,異域則置為0。
3.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法,其特征在于,所述域協(xié)調(diào)損失函數(shù)的計(jì)算方法為:
首先,定義智能體i的域共識(shí)向量DCi為:
其中,是對(duì)智能體i第t步的觀察ot和動(dòng)作at拼接后進(jìn)行編碼得到的初始特征向量;
然后,將每對(duì)智能體i和j的域共識(shí)向量進(jìn)行拼接后使用權(quán)重矩陣aT計(jì)算連接分?jǐn)?shù)eij,并使用sigmoid函數(shù)σ推斷智能體i和j之間連接存在的概率P(dij=1):
eij=aT[DCi||DCj]
φij=P(dij=1)=σ(eij)
式中:||表示向量拼接,φij為智能體i和j屬于同域的概率;
最后,以域信息矩陣DN×N為監(jiān)督目標(biāo),得到的域協(xié)調(diào)損失函數(shù):
其中,1是指示函數(shù),其下標(biāo)中的等式成立則函數(shù)值為1,否則為0。
4.如權(quán)利要求3所述的基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法,其特征在于,所述基于圖網(wǎng)絡(luò)進(jìn)行多智能體建模的具體做法如下:
將每個(gè)智能體定義為圖上的一個(gè)節(jié)點(diǎn),智能體之間的交互就是圖節(jié)點(diǎn)之間連接的邊,從而通過(guò)圖卷積網(wǎng)絡(luò)實(shí)現(xiàn)圖上節(jié)點(diǎn)之間的消息傳遞,聚合鄰居節(jié)點(diǎn)的特征并用于更新自身節(jié)點(diǎn)特征,從而提取到相應(yīng)的狀態(tài)特征,實(shí)現(xiàn)節(jié)點(diǎn)特征的融合。
5.如權(quán)利要求4所述的基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法,其特征在于,所述圖卷積網(wǎng)絡(luò)中,對(duì)于任一智能體i的節(jié)點(diǎn),以所有鄰居節(jié)點(diǎn)作為輸入,其狀態(tài)特征的計(jì)算方法為:
式中:Ni為智能體i的所有鄰居節(jié)點(diǎn),代表與智能體i同域的所有其他智能體,n為智能體i的鄰居節(jié)點(diǎn)個(gè)數(shù),diag(1)n為大小為n的對(duì)角矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110863195.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 一種用于多天線OFDMA系統(tǒng)的基站間干擾協(xié)調(diào)預(yù)編碼方案
- 一種采用復(fù)合協(xié)調(diào)關(guān)口的省地協(xié)調(diào)電壓控制方法
- Zigbee網(wǎng)絡(luò)中協(xié)調(diào)器的熱備方法
- 資源調(diào)度、用戶設(shè)備協(xié)調(diào)調(diào)度方法及裝置、系統(tǒng)
- 決策協(xié)調(diào)方法、執(zhí)行裝置和決策協(xié)調(diào)器
- 協(xié)調(diào)服務(wù)器、協(xié)調(diào)系統(tǒng)及協(xié)調(diào)方法
- 協(xié)調(diào)方向重復(fù)放行的干線協(xié)調(diào)優(yōu)化方法
- 在無(wú)線局域網(wǎng)中執(zhí)行協(xié)調(diào)發(fā)送的方法及裝置
- 一種醫(yī)療數(shù)據(jù)信息協(xié)調(diào)處理方法、裝置及系統(tǒng)
- 城市建設(shè)用地?cái)U(kuò)張與人口增長(zhǎng)相對(duì)協(xié)調(diào)度評(píng)價(jià)方法及系統(tǒng)





