日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于強化學習的模型未知多智能體一致性控制方法有效

專利信息
申請號: 202110184288.2 申請日: 2021-02-08
公開(公告)號: CN112947084B 公開(公告)日: 2022-09-23
發明(設計)人: 陳剛;林卓龍 申請(專利權)人: 重慶大學
主分類號: G05B13/04 分類號: G05B13/04
代理公司: 北京同恒源知識產權代理有限公司 11275 代理人: 趙榮之
地址: 400044 重*** 國省代碼: 重慶;50
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 強化 學習 模型 未知 智能 一致性 控制 方法
【權利要求書】:

1.一種基于強化學習的模型未知多智能體一致性控制方法,其特征在于:該方法包括以下步驟:

S1:基于強化學習的單智能體最優輸出控制;

S2:基于強化學習的多智能體一致性控制;

所述S1具體為:

在設計單智能體的最優控制器時采用非策略強化學習算法在線學習跟蹤HJB方程的解,考慮以下系統模型:

其中x,u分別是系統的狀態和控制輸入,d是外部干擾;假設f(x),g(x),L(x)是Lipchitz函數,且f(0)=0,則系統是魯棒穩定的;

假設p(t)是所需達成的一致性條件,且滿足如下形式:

且有h(0)=0,定義整個系統的跟蹤誤差為:

聯立(1-1)(1-2)(1-3)得:

定義如下虛擬性能輸出,使其滿足要求:

對系統定義性能函數:

假設系統在u*初滿足代價最小化,則有

給定如下貝爾曼方程:

其中,

是為系統所設計的擴增系統;

根據最優化條件以及得最優控制輸入及最優干擾輸入:

其中V*是在(1-7)中所定義的最優化值函數;

根據(1-10)得到的最優輸入條件,得到如下軌跡跟蹤的HJB方程:

于是,得到下面單智能體的離線RL算法:

基于RL算法求解HJB方程

步驟11:初始化:給定一個允許的穩定控制策略值u0

步驟12:策略評估:對于一個控制輸入ui和一個干擾輸入di,使用下面的Bellman方程:

步驟13:更新系統的干擾di

步驟14:更新系統的輸入ui

步驟15:重新執行步驟11

所述S2具體為:

S21:建立圖理論:

設G=(V,E,A)是一個加權圖,用來描述N個智能體之間的信息通道;V為跟隨者節點{v1,v2,…vN}的非空有限集;為邊緣集;為帶權鄰接矩陣,且當(vi,vj)∈E時,aij>0;若aij=0以及對于所有i=1,2,…N,aij=0;定義Ni={vj∈V:(vi,vj)∈E}表示跟隨者vi的鄰居跟隨者集合,即Ni中的所有跟隨者直接發送信息給跟隨者vi,定義矩陣D=diag(d1,d2,...,dN)為入度矩陣,其中有向圖G=(V,E,A)的拉普拉斯矩陣L=D-A=[lij],其中lij=-aij,拉普拉斯矩陣L的每一行的和為零,即1N為拉普拉斯矩陣L的一個右特征向量,其對應的特征值為零;對于一棵生成樹,如果只有一個節點vi,表示有一條從一個節點到圖中任何其他節點的有向途徑;從每個節點到任何其他節點都有一條有向途徑;對于具有生成樹的圖來說,強連通性是一個充分不必要條件;

S22:問題描述:

考慮由一個領導者和N個跟隨者組成的多智能體系統,且考慮的是具有通信有向圖G(x)的形式,第i個跟隨者的動力學模型為:

其中和分別為第i個跟隨者的狀態和輸入,和分別為第i個跟隨者的內部函數和輸入矩陣函數,且假設fi(xi),gi(xi)是未知的,有fi(0)=0,系統(2-1)具有魯棒穩定性;

領導者的動力學模型為:

其中為領導者的狀態,未知,D是一個常數矩陣,設其可微,且有界||f(x0)||≤ρ0

根據每個跟隨者與其相鄰智能體之間的網絡拓補關系將系統的局部領域一致性誤差描述如下:

其中且bi≥0,當且僅當bi>0時,第i個智能體與領導者之間才有通信;多智能體系統的一致性信息由局部領域的一致性誤差ei來表示,當t→∞時,ei→0,多智能體系統將達成一致;

S23:自適應分布式觀測器

通過為每一個跟隨者設計自適應分布式觀測器,解決在多智能體系統中,領導者狀態不可知的情況下,跟隨者實時估計領導者的狀態,將跟隨者相對于領導者的狀態轉化為自適應分布式觀測器相對于領導者的狀態;

其中,自適應分布式觀測器如下:

其中χ0=x,D0=D,μ>0;在系統的誤差描述之下,滿足且滿足適應分布式觀測器包含一種估計矩陣D的機制,領導者的領近單元才知道此矩陣;

使用S的估計值Si來自適應的計算方程的解,得到下述觀測器形式:

S24:基于強化學習的多智能體系統控制器設計;

考慮如下系統模型:

xk+1=f(xk)+g(xk)uk (4-1)

其中,是系統的狀態,是系統的控制輸入,上述系統模型也可用更加簡明的xk+1=F(xk,uk)表示;

對于多智能體系統的每個狀態xk定義如下控制策略:

uk=h(xk) (4-2)

上述映射形式也被稱為反饋控制器,在反饋控制領域,反饋控制策略的設計有很多,包括Riccati方程最優解,自適應控制,h∞控制以及經典頻域控制;

為得到系統的最佳控制策略,為系統設計如下成本函數:

其中,折扣因子0<γ≤1,uk=h(xk)是設計中的控制策略;

或以標準二次形式給出:

假定系統在V*處付出的成本最小,則其最優成本策略為:

當取最優控制策略時,系統所給定的最優控制值為:

在原系統中,考慮多智能體系統的領導者有如下模型:

xk+1=f(xk) (4-7)

通過給定系統的通信網絡圖,系統的局部一致性誤差定義為:

多智能體系統的共識信息用上述局部領域的系統共識誤差來表示,即當t→0時,ei→0,表示系統趨于一致;

設計一個額外的補償器,不依賴于各個子系統,由可期望的輸入仿射微分方程定義:

再結合相應圖論知識,得到(4-10)的全局誤差形式:

e=L'(x-x0) (4-10)

其中,且有滿足bii=bi,當i≠j時,bij=0

聯立(2-1)和(4-10)后對局部誤差e求導后,相對于圖G(x)得到局部領域一致性誤差為:

其中,fe(t)=f(x(t))-f(x(0)),Li表示的是拉普拉斯矩陣的第i個列向量;結合(4-10)和(4-11),將局部領域一致性誤差表示為:

其中,且滿足:

同樣的,回到剛開始所設計的連續時間下的系統模型:

給定連續時間多智能體系統一致性控制的代價函數:

則通過(4-9)和(4-13)所定義的仿射微分方程,利用Leibniz法則,得到相關跟蹤Bellman方程:

其中,U(u)是關于控制輸入u的一個正定被積函數:

則(4-15)有如下方程表示:

而后,定義下面哈密爾頓方程:

不妨令V*是系統最優控制成本,則最優成本函數定義如下:

在最優成本V*下,根據(4-18)中的Hamiltonian方程,得到如下HJB方程:

當穩定性條件時,得到如下最優控制輸入:

得到下面策略迭代算法:

算法:基于策略迭代方法求解HJB方程

步驟211:策略評估:給定控制輸入ui(x),通過下面貝爾曼方程求解Vi(X)

步驟212:(策略改進)通過下式更新控制策略:

步驟213:令返回步驟211,直到收斂到最小值;

在策略迭代算法中引入積分強化學習算法,在離散時間系統(4-1)上,對于任意積分區間T0,連續系統(4-13)中的值函數滿足如下形式:

利用積分強化學習算法實現對貝爾曼方程的解進行跟蹤,在采用積分強化學求解HJB方程在對系統動力學模型未知的情況下實現;

得到下面基于策略迭代的積分強化學習算法:

算法:基于策略迭代的離線積分強化學習算法求解HJB方程

步驟221:策略評估:給定控制輸入ui(x),通過下面貝爾曼方程求解Vi(X)

步驟222:策略改進:通過下式更新控制策略:

步驟223:令返回步驟221,直到收斂到最小值;

S25:基于強化學習算法設計自適應分布式觀測器實現多智能體的一致性分布式控制多智能體系統:

xi(k+1)=fi(x(k))+gi(x(k))ui(k)

yi(k)=cxi(k) (5-1)

其中,xi,ui,yi,分別表示系統的第i個智能體的狀態,控制輸入和輸出;

領導者模型考慮有如u()下形式:

ν(k+1)=Eν(k)

所參考的領導者模型中,是領導者系統的狀態,當智能體i滿足(ν0,νi)∈ε,跟隨者i與領導者之間存在通信連接時,表示一個已知的常數矩陣;Q滿足Q(0)=0,是外部參考信號;

設有觀測器:

其中,Ri(k)表示在k時刻智能體i相對于領導者的觀測值,且滿足R0(k)=ν(k),W0(k)=W,

根據上述系統描述,按照線性系統最優輸出問題公式的推導,得到該系統的一個代價函數:

其中,i=1,2,...,N,ri是折扣因子,c=[1,0,0,...0]通過對式(5-4)的求解,得到每個follower的最優反饋輸入:在解出函數最優反饋輸入時,將(5-4)寫成二次型函數形式,表示為系統的值函數:

得到如下貝爾曼方程:

根據上面貝爾曼方程,將非線性最優反饋中的HJB方程定義為:

當穩定性條件時,得到如下最優控制輸入:

其中,

采用IRL的策略迭代來求解上述HJB方程;

得到下面基于策略迭代的在線IRL多智能體最優反饋控制算法:

算法:基于策略迭代的在線IRL算法求解HJB方程

步驟231:初始化:選擇一個控制輸入重復以下步驟知道系統收斂;

步驟232:策略改進:通過下式更新控制策略:

步驟233:令ui(k)=ui+1(k)返回步驟231,直到Vi(k)收斂到最小值;

在系統(5-1)和(5-2)模型基礎上,考慮如下一階多智能體系統:

其中,分別表示第i個智能體在時刻k處的狀態和控制輸入;τij≥0表示數據從智能體j到智能體i的通信時滯,τi≥0表示智能體i自身的輸入時滯;考慮包含n個智能體的一階離散多智能體系統,其網絡拓補結構為靜態有向加權圖,且包含一個全局可達節點,如果滿足則有:max{di(2τi+1)}<1

則系統能實現漸進一致,其中,

假設多智能體系統包含5個節點,其相對應的鄰接矩陣如下:

根據以上設定,智能體的輸入時滯應滿足

假設:τ13=1s,τ21=0.75s,τ32=1.8s,τ42=2s,τ51=0.8s,輸入時滯τ=0.5s,并隨機產生智能體的初始狀態為x(0)=(2.5,3,2,3.5,5),各智能體最終漸進趨于一致;將輸入時滯換為3s,系統依然實現一致。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110184288.2/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 午夜av男人的天堂| 国产精品一区二区人人爽| 色噜噜狠狠色综合影视| 国产日本一区二区三区| 国产精品麻豆一区二区| 欧美一区二区三区四区五区六区| 欧美日韩久久精品| 免费欧美一级视频| 久久综合久久自在自线精品自| 欧美日韩一级黄| 国产麻豆91欧美一区二区| 国产精品精品视频一区二区三区 | 午夜欧美影院| 国产清纯白嫩初高生在线观看性色| 中文字幕日韩精品在线| 欧美日韩久久一区| 久久五月精品| 男女无遮挡xx00动态图120秒| 国产日产高清欧美一区二区三区| 中文字幕在线一区二区三区| 国内精品国产三级国产99| 91看片app| 国产欧美一区二区三区不卡高清| 精品国产1区2区| 国产欧美精品va在线观看| 欧美一区二区三区另类| 精品无人国产偷自产在线| 午夜免费网址| 欧美一区二区三区久久久| 国产高清在线一区| 国产经典一区二区| 久久久中精品2020中文 | 午夜欧美a级理论片915影院| 欧美一区二三区| 91麻豆国产自产在线观看hd| 91精品www| 精品一区二区三区视频?| 高清人人天天夜夜曰狠狠狠狠| 偷拍自中文字av在线| 国产乱码一区二区三区| 午夜三级电影院| 久久久久久久亚洲视频| 国产精品无码永久免费888| 97人人模人人爽人人喊38tv| 久久96国产精品久久99软件| 亚洲日本国产精品| 91精品久久天干天天天按摩| 99久久免费精品国产免费高清| 日韩毛片一区| 国产69精品久久久久777糖心| 国产午夜伦理片| 午夜wwww| 亚洲精品乱码久久久久久麻豆不卡| 日韩一区免费在线观看| 欧美一区二区伦理片| 亚洲精品久久久久不卡激情文学| 国内精品国产三级国产99| 国产无遮挡又黄又爽又色视频| 国产一级二级在线| 亚洲天堂国产精品| 国产偷窥片| 欧美日韩中文国产一区发布| 91精品资源| 国产乱了高清露脸对白| 久久天天躁夜夜躁狠狠躁2022| 亚洲精品www久久久久久广东| 日韩精品中文字幕一区| 免费看片一区二区三区| 国产精品久久人人做人人爽| 日本美女视频一区二区| 亚洲三区在线| 国产一区二三| 日韩欧美一区精品| 高清欧美精品xxxxx| 91亚洲欧美日韩精品久久奇米色| 人人要人人澡人人爽人人dvd| 国产麻豆91欧美一区二区| 色乱码一区二区三区网站| 欧美一区二区三区中文字幕| 性国产videofree极品| 中文无码热在线视频| 99欧美精品| 狠狠色狠狠色综合日日2019 | 91精品第一页| 国产精品九九九九九| 国产精品乱码一区二区三区四川人| 少妇**毛片| 满春阁精品av在线导航 | 国产美女三级无套内谢| 中文字幕亚洲欧美日韩在线不卡| 亚洲精品中文字幕乱码三区91| 午夜一二区| 狠狠色狠狠色合久久伊人| 久久久久久久久亚洲精品 | 国产99网站| 午夜伦全在线观看| 亚洲欧美国产中文字幕| 国产一级不卡毛片| 午夜激情综合网| 久久人人爽爽| 精品久久不卡| 久草精品一区| 中日韩欧美一级毛片| 午夜在线看片| 欧美精品二区三区| 午夜看片在线| 国产无套精品一区二区| 欧美日韩久久一区二区| 天干天干天啪啪夜爽爽99| 亚洲精品丝袜| 一区二区久久久久| 日日夜夜一区二区| 国产毛片精品一区二区| 国产一区二区二| 久草精品一区| 热久久一区二区| 国产伦高清一区二区三区| 亚洲精品国产精品国自| 91精品久久久久久综合五月天| 午夜激情在线播放| 一区二区三区四区视频在线| 日本高清一二三区| 夜夜嗨av一区二区三区中文字幕| 美女张开腿黄网站免费| 国产精品久久久久久久龚玥菲 | 精品国产免费一区二区三区| 一区二区在线视频免费观看| 国产玖玖爱精品视频| 黑人巨大精品欧美黑寡妇| 夜夜嗨av禁果av粉嫩av懂色av| 国产精品中文字幕一区| 久久99精品国产麻豆婷婷洗澡| 国产日产精品一区二区三区| 欧美福利一区二区| 中文在线√天堂| 伊人欧美一区| 精品91av| 亚洲影院久久| 99久久夜色精品| 国产一级片大全| 国产极品美女高潮无套久久久| 一区二区免费在线观看| 亚洲无人区码一码二码三码| 激情久久综合网| 欧美一区二区三区片| 亚洲国产欧美一区| 精品999久久久| 国产清纯白嫩初高生在线播放性色| 国产欧美日韩精品一区二区三区 | **毛片免费| 一区二区三区四区视频在线| 国产aⅴ一区二区| 九色国产精品入口| 日韩精品一区在线观看| 国产97在线播放| 精品国产一区二区三区四区vr| 久久久久久久亚洲国产精品87| 日韩欧美国产另类| 特级免费黄色片| 制服丝袜二区| 欧美精品中文字幕在线观看| 欧美高清性xxxx| 国产大片黄在线观看私人影院| 亚洲女人av久久天堂| 97人人澡人人添人人爽超碰| 香蕉av一区二区| 国产亚洲精品精品国产亚洲综合| 视频一区二区三区欧美| 亚洲va国产| 狠狠色依依成人婷婷九月| 狠狠色很很在鲁视频| 亚洲制服丝袜中文字幕| 99国产精品免费观看视频re| 免费午夜片| 国产精品v欧美精品v日韩| 制服丝袜二区| 国产精品日韩一区二区三区| 亚洲欧美国产日韩综合| 中文字幕久久精品一区| 午夜剧场伦理| 中文乱码字幕永久永久电影| 国产欧美一区二区三区免费视频| 久久精品一区二区三区电影| 亚洲少妇一区二区| 四虎国产精品永久在线国在线| 91麻豆产精品久久久| 欧美一区二区久久| 欧美日韩亚洲另类| 自偷自拍亚洲| 91一区二区三区在线| 国产一区在线精品| 久久99亚洲精品久久99| 久久久精品久久日韩一区综合| 夜夜躁人人爽天天天天大学生| 大伊人av| 欧美一区二三区人人喊爽| 中文字幕一区二区在线播放| 销魂美女一区二区| 久久福利免费视频| 欧美精品免费看| 性生交片免费看片| 欧美精品在线观看视频| 99国产伦精品一区二区三区| 99精品国产99久久久久久97| 国产一区二区片| 91久久免费| 午夜剧场a级免费| 日韩亚洲欧美一区| 国产精品v欧美精品v日韩精品v | 久久99精品久久久大学生| 国产九九影院| 日韩欧美一区二区久久婷婷| 精品国产一区二区三| 亚洲乱码一区二区三区三上悠亚| 欧美亚洲精品一区二区三区| 国产88久久久国产精品免费二区| 夜夜爱av| 国产一区二区高潮| 日韩亚洲精品在线观看| 国产无遮挡又黄又爽又色视频 | 国产精品一区在线播放| 国产精品自拍不卡| 欧美一区二区三区免费视频| 欧美久久一区二区三区| 精品中文久久| 伊人av综合网| 亚洲国产精品97久久无色| 午夜影皖精品av在线播放| 国产人澡人澡澡澡人碰视| 国产日韩欧美第一页| 国产一区二区三区色噜噜小说| 国产69精品久久久久孕妇不能看 | 夜夜夜夜夜猛噜噜噜噜噜gg| 亚洲无人区码一码二码三码| 91精品高清| 久久中文一区二区| 欧美老肥婆性猛交视频| 538国产精品一区二区免费视频| 福利片一区二区三区| 国产高清在线观看一区| 欧美午夜一区二区三区精美视频| 国产乱xxxxx国语对白| 99精品国产一区二区三区不卡| 精品一区二区三区中文字幕| 国产精自产拍久久久久久蜜| 91看片片|