[發明專利]非線性多智能體系統的最優一致性控制方法及系統有效
| 申請號: | 201810917939.2 | 申請日: | 2018-08-13 |
| 公開(公告)號: | CN108803349B | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 陳鑫;符浩 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 孫麗麗 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 非線性 智能 體系 最優 一致性 控制 方法 系統 | ||
1.一種非線性多智能體系統的最優一致性控制方法,其特征在于,包括如下步驟:
S1、根據異構多智能體系統各個體動力學特性,建立參考行為模型,采用領導者—跟隨者的控制模式,形成以參考行為模型為個體組成的多智能體系統;
S2、根據多智能體系統的網絡拓撲結構,構建動態圖型博弈全局誤差動力學模型,然后在動態圖型博弈全局誤差動力學模型基礎上,根據全局納什均衡和貝爾曼最優原理對多智能體局部性能指標函數進行處理,得到耦合HJB方程;
S3、在僅利用鄰近智能體局部信息條件下,根據所述耦合HJB方程,采用基于值函數逼近的執行—評價執行網絡框架的方式,分別對評價網絡和執行網絡進行逼近,在線迭代學習獲得最優一致性協議,分別求得最優一致性協議逼近值,然后根據最優一致性協議逼近值對非線性多智能體系統進行一致性控制;
步驟S1的具體實現方法包括如下步驟:
根據由N個異構個體組成多智能體系統各個體動力學特性,建立參考行為模型xmi(k+1)=Axmi(k)+Biumi(k),其中xmi(k)表示參考模型狀態,umi(k)表示參考輸入,A和Bi表示系數矩陣,下標i=1、2、…、N表示第i個智能體;
其中,領導者模型為x0(k+1)=Ax0(k),以形成以參考行為模型與領導者為個體組成的多智能體系統,其中系數矩陣A的大小由各智能體動力學特性和領導者軌跡而確定,x0(k)表示領導者的狀態,k表示第k個狀態;
步驟S2的具體實現方法包括如下步驟:
構建動態圖型博弈全局誤差動力學模型:
其中,ei(k)表示參考模型局部鄰域跟蹤誤差狀態,aij表示為跟隨者鄰接矩陣對應的元素、di表示為入度的對角元素和bi表示為領導者鄰接矩陣對應的對角元素,umi(k)表示參考模型的控制輸入,umj(k)表示第j個參考模型的控制輸入,是智能體i的臨近智能體集;
多智能體局部性能指標函數為:
作為智能體i最優目標函數,其中α為折扣因子,u(mj)(k)為鄰近智能體參考模型輸入,ri(ei(k),umi(k),u(mj)(k))表示智能體i的效用函數;
根據全局納什均衡和貝爾曼最優原理,得耦合HJB方程:
其中,ei(k)為智能體i局部鄰域跟蹤誤差,umi(k)為智能體i參考模型的控制輸入,u(mj)(k)為當前智能體鄰近智能體參考模型的控制輸入,α為折扣因子,智能體i最優性能指標函數;
步驟S3中,對評價網絡進行逼近,求得最優一致性協議逼近值過程中:
為逼近值函數采用BP神經網絡進行逼近:
其中σ(·)為激活函數,Wci(k)和Vci(k)表示為評價網絡的權值,表示函數的估計函數;
評價網絡估計誤差函數為:
采用梯度下降法更新評價網絡權值
Wci(k+1)=Wci(k)+ηcieci(k)σci(k);
其中,ηci表示學習率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810917939.2/1.html,轉載請聲明來源鉆瓜專利網。





