[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法有效

申請(qǐng)?zhí)枺?/td>	202110863195.2	申請(qǐng)日：	2021-07-29
公開(kāi)（公告）號(hào)：	CN113625561B	公開(kāi)（公告）日：	2023-09-26
發(fā)明（設(shè)計(jì)）人：	張寅;王淑晗	申請(qǐng)（專利權(quán)）人：	浙江大學(xué)
主分類號(hào)：	G05B13/04	分類號(hào)：	G05B13/04;G06F30/27;G06N3/048;G06N3/08;G06N3/0464
代理公司：	杭州求是專利事務(wù)所有限公司 33200	代理人：	傅朝棟;張法高
地址：	310058 浙江***	國(guó)省代碼：	浙江;33
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于強(qiáng)化學(xué)習(xí) 協(xié)調(diào) 智能體系協(xié)作控制方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書(shū)】：

1.一種基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法，其特征在于，包括如下步驟：

S1、針對(duì)待協(xié)作控制的多個(gè)機(jī)器人，將每個(gè)機(jī)器人視為多域協(xié)作場(chǎng)景中的一個(gè)智能體，對(duì)其進(jìn)行域的劃分；

S2、針對(duì)域劃分后的多域協(xié)作場(chǎng)景，基于圖網(wǎng)絡(luò)進(jìn)行多智能體建模，使全域智能體協(xié)作，形成包含集中式價(jià)值網(wǎng)絡(luò)及分散式動(dòng)作網(wǎng)絡(luò)的多智能體協(xié)作模型；所述分散式動(dòng)作網(wǎng)絡(luò)中，動(dòng)作網(wǎng)絡(luò)接收智能體的觀察作為輸入，輸出當(dāng)前所采取的動(dòng)作；所述集中式價(jià)值網(wǎng)絡(luò)接收每個(gè)智能體的觀察和動(dòng)作作為輸入，進(jìn)行域協(xié)調(diào)操作，并經(jīng)過(guò)圖卷積網(wǎng)絡(luò)提取鄰域節(jié)點(diǎn)信息，為每個(gè)智能體預(yù)測(cè)當(dāng)前狀態(tài)-動(dòng)作對(duì)的價(jià)值，用于更新集中價(jià)值網(wǎng)絡(luò)及分散動(dòng)作網(wǎng)絡(luò)；且在模型中定義域協(xié)調(diào)損失函數(shù)，用于指導(dǎo)域共識(shí)向量的表示學(xué)習(xí)，使同一域中的智能體之間形成強(qiáng)協(xié)調(diào)；

S3、使用集中訓(xùn)練、分散執(zhí)行的訓(xùn)練方式，對(duì)采用Actor-Critic框架的多智能體協(xié)作模型進(jìn)行訓(xùn)練；

S4、訓(xùn)練完成后，將模型中的各個(gè)動(dòng)作網(wǎng)絡(luò)作為策略網(wǎng)絡(luò)獨(dú)立執(zhí)行，輸入對(duì)應(yīng)智能體的觀察向量，輸出為對(duì)應(yīng)智能體的動(dòng)作向量并將其傳遞給對(duì)應(yīng)機(jī)器人，各機(jī)器人根據(jù)接收到的動(dòng)作向量進(jìn)行移動(dòng)控制，實(shí)現(xiàn)多機(jī)器人的協(xié)作控制。

2.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法，其特征在于，步驟S1中，所述多域協(xié)作場(chǎng)景包含多個(gè)合作型關(guān)系的子組；每一個(gè)子組作為一個(gè)域，由目標(biāo)是完成同一任務(wù)的多個(gè)智能體組成；不同子組在同一場(chǎng)景中的任務(wù)目標(biāo)不同，且整個(gè)場(chǎng)景中所有智能體之間需要進(jìn)行協(xié)調(diào)以避免沖突；多域協(xié)作場(chǎng)景中使用域信息矩陣D_N×N標(biāo)記智能體之間的域關(guān)系，矩陣元素d_ij表示智能體i和智能體j之間的域關(guān)系，同域則置1，異域則置為0。

3.如權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法，其特征在于，所述域協(xié)調(diào)損失函數(shù)的計(jì)算方法為：

首先，定義智能體i的域共識(shí)向量DC_i為：

其中，是對(duì)智能體i第t步的觀察o^t和動(dòng)作a^t拼接后進(jìn)行編碼得到的初始特征向量；

然后，將每對(duì)智能體i和j的域共識(shí)向量進(jìn)行拼接后使用權(quán)重矩陣a^T計(jì)算連接分?jǐn)?shù)e_ij，并使用sigmoid函數(shù)σ推斷智能體i和j之間連接存在的概率P(d_ij＝1)：

e_ij＝a^T[DC_i||DC_j]

φ_ij＝P(d_ij＝1)＝σ(e_ij)

式中：||表示向量拼接，φ_ij為智能體i和j屬于同域的概率；

最后，以域信息矩陣D_N×N為監(jiān)督目標(biāo)，得到的域協(xié)調(diào)損失函數(shù)：

其中，1是指示函數(shù)，其下標(biāo)中的等式成立則函數(shù)值為1，否則為0。

4.如權(quán)利要求3所述的基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法，其特征在于，所述基于圖網(wǎng)絡(luò)進(jìn)行多智能體建模的具體做法如下：

將每個(gè)智能體定義為圖上的一個(gè)節(jié)點(diǎn)，智能體之間的交互就是圖節(jié)點(diǎn)之間連接的邊，從而通過(guò)圖卷積網(wǎng)絡(luò)實(shí)現(xiàn)圖上節(jié)點(diǎn)之間的消息傳遞，聚合鄰居節(jié)點(diǎn)的特征并用于更新自身節(jié)點(diǎn)特征，從而提取到相應(yīng)的狀態(tài)特征，實(shí)現(xiàn)節(jié)點(diǎn)特征的融合。

5.如權(quán)利要求4所述的基于強(qiáng)化學(xué)習(xí)的域協(xié)調(diào)多智能體系統(tǒng)協(xié)作控制方法，其特征在于，所述圖卷積網(wǎng)絡(luò)中，對(duì)于任一智能體i的節(jié)點(diǎn)，以所有鄰居節(jié)點(diǎn)作為輸入，其狀態(tài)特征的計(jì)算方法為：

式中：N_i為智能體i的所有鄰居節(jié)點(diǎn)，代表與智能體i同域的所有其他智能體，n為智能體i的鄰居節(jié)點(diǎn)個(gè)數(shù)，diag(1)_n為大小為n的對(duì)角矩陣。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué)，未經(jīng)浙江大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110863195.2/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：衣物處理設(shè)備及其控制方法、裝置及存儲(chǔ)介質(zhì)
下一篇：一種提高鉆孔精度便于安裝效果的電鉆設(shè)備

同類專利

專利分類

G 物理

G05 控制；調(diào)節(jié)
G05B 一般的控制或調(diào)節(jié)系統(tǒng)；這種系統(tǒng)的功能單元；用于這種系統(tǒng)或單元的監(jiān)視或測(cè)試裝置
G05B13-00 自適應(yīng)控制系統(tǒng)，即系統(tǒng)按照一些預(yù)定的準(zhǔn)則自動(dòng)調(diào)整自己使之具有最佳性能的系統(tǒng)
G05B13-02 .電的
G05B13-04 ..包括使用模型或模擬器的

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū)；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】