[發明專利]一種基于強化學習的模型未知多智能體一致性控制方法有效
| 申請號: | 202110184288.2 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112947084B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 陳剛;林卓龍 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400044 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 模型 未知 智能 一致性 控制 方法 | ||
1.一種基于強化學習的模型未知多智能體一致性控制方法,其特征在于:該方法包括以下步驟:
S1:基于強化學習的單智能體最優輸出控制;
S2:基于強化學習的多智能體一致性控制;
所述S1具體為:
在設計單智能體的最優控制器時采用非策略強化學習算法在線學習跟蹤HJB方程的解,考慮以下系統模型:
其中x,u分別是系統的狀態和控制輸入,d是外部干擾;假設f(x),g(x),L(x)是Lipchitz函數,且f(0)=0,則系統是魯棒穩定的;
假設p(t)是所需達成的一致性條件,且滿足如下形式:
且有h(0)=0,定義整個系統的跟蹤誤差為:
聯立(1-1)(1-2)(1-3)得:
定義如下虛擬性能輸出,使其滿足要求:
對系統定義性能函數:
假設系統在u*初滿足代價最小化,則有
給定如下貝爾曼方程:
其中,
是為系統所設計的擴增系統;
根據最優化條件以及得最優控制輸入及最優干擾輸入:
其中V*是在(1-7)中所定義的最優化值函數;
根據(1-10)得到的最優輸入條件,得到如下軌跡跟蹤的HJB方程:
于是,得到下面單智能體的離線RL算法:
基于RL算法求解HJB方程
步驟11:初始化:給定一個允許的穩定控制策略值u0
步驟12:策略評估:對于一個控制輸入ui和一個干擾輸入di,使用下面的Bellman方程:
步驟13:更新系統的干擾di:
步驟14:更新系統的輸入ui:
步驟15:重新執行步驟11
所述S2具體為:
S21:建立圖理論:
設G=(V,E,A)是一個加權圖,用來描述N個智能體之間的信息通道;V為跟隨者節點{v1,v2,…vN}的非空有限集;為邊緣集;為帶權鄰接矩陣,且當(vi,vj)∈E時,aij>0;若aij=0以及對于所有i=1,2,…N,aij=0;定義Ni={vj∈V:(vi,vj)∈E}表示跟隨者vi的鄰居跟隨者集合,即Ni中的所有跟隨者直接發送信息給跟隨者vi,定義矩陣D=diag(d1,d2,...,dN)為入度矩陣,其中有向圖G=(V,E,A)的拉普拉斯矩陣L=D-A=[lij],其中lij=-aij,拉普拉斯矩陣L的每一行的和為零,即1N為拉普拉斯矩陣L的一個右特征向量,其對應的特征值為零;對于一棵生成樹,如果只有一個節點vi,表示有一條從一個節點到圖中任何其他節點的有向途徑;從每個節點到任何其他節點都有一條有向途徑;對于具有生成樹的圖來說,強連通性是一個充分不必要條件;
S22:問題描述:
考慮由一個領導者和N個跟隨者組成的多智能體系統,且考慮的是具有通信有向圖G(x)的形式,第i個跟隨者的動力學模型為:
其中和分別為第i個跟隨者的狀態和輸入,和分別為第i個跟隨者的內部函數和輸入矩陣函數,且假設fi(xi),gi(xi)是未知的,有fi(0)=0,系統(2-1)具有魯棒穩定性;
領導者的動力學模型為:
其中為領導者的狀態,未知,D是一個常數矩陣,設其可微,且有界||f(x0)||≤ρ0;
根據每個跟隨者與其相鄰智能體之間的網絡拓補關系將系統的局部領域一致性誤差描述如下:
其中且bi≥0,當且僅當bi>0時,第i個智能體與領導者之間才有通信;多智能體系統的一致性信息由局部領域的一致性誤差ei來表示,當t→∞時,ei→0,多智能體系統將達成一致;
S23:自適應分布式觀測器
通過為每一個跟隨者設計自適應分布式觀測器,解決在多智能體系統中,領導者狀態不可知的情況下,跟隨者實時估計領導者的狀態,將跟隨者相對于領導者的狀態轉化為自適應分布式觀測器相對于領導者的狀態;
其中,自適應分布式觀測器如下:
其中χ0=x,D0=D,μ>0;在系統的誤差描述之下,滿足且滿足適應分布式觀測器包含一種估計矩陣D的機制,領導者的領近單元才知道此矩陣;
使用S的估計值Si來自適應的計算方程的解,得到下述觀測器形式:
S24:基于強化學習的多智能體系統控制器設計;
考慮如下系統模型:
xk+1=f(xk)+g(xk)uk (4-1)
其中,是系統的狀態,是系統的控制輸入,上述系統模型也可用更加簡明的xk+1=F(xk,uk)表示;
對于多智能體系統的每個狀態xk定義如下控制策略:
uk=h(xk) (4-2)
上述映射形式也被稱為反饋控制器,在反饋控制領域,反饋控制策略的設計有很多,包括Riccati方程最優解,自適應控制,h∞控制以及經典頻域控制;
為得到系統的最佳控制策略,為系統設計如下成本函數:
其中,折扣因子0<γ≤1,uk=h(xk)是設計中的控制策略;
或以標準二次形式給出:
假定系統在V*處付出的成本最小,則其最優成本策略為:
當取最優控制策略時,系統所給定的最優控制值為:
在原系統中,考慮多智能體系統的領導者有如下模型:
xk+1=f(xk) (4-7)
通過給定系統的通信網絡圖,系統的局部一致性誤差定義為:
多智能體系統的共識信息用上述局部領域的系統共識誤差來表示,即當t→0時,ei→0,表示系統趨于一致;
設計一個額外的補償器,不依賴于各個子系統,由可期望的輸入仿射微分方程定義:
再結合相應圖論知識,得到(4-10)的全局誤差形式:
e=L'(x-x0) (4-10)
其中,且有滿足bii=bi,當i≠j時,bij=0
聯立(2-1)和(4-10)后對局部誤差e求導后,相對于圖G(x)得到局部領域一致性誤差為:
其中,fe(t)=f(x(t))-f(x(0)),Li表示的是拉普拉斯矩陣的第i個列向量;結合(4-10)和(4-11),將局部領域一致性誤差表示為:
其中,且滿足:
同樣的,回到剛開始所設計的連續時間下的系統模型:
給定連續時間多智能體系統一致性控制的代價函數:
則通過(4-9)和(4-13)所定義的仿射微分方程,利用Leibniz法則,得到相關跟蹤Bellman方程:
其中,U(u)是關于控制輸入u的一個正定被積函數:
則(4-15)有如下方程表示:
而后,定義下面哈密爾頓方程:
不妨令V*是系統最優控制成本,則最優成本函數定義如下:
在最優成本V*下,根據(4-18)中的Hamiltonian方程,得到如下HJB方程:
當穩定性條件時,得到如下最優控制輸入:
得到下面策略迭代算法:
算法:基于策略迭代方法求解HJB方程
步驟211:策略評估:給定控制輸入ui(x),通過下面貝爾曼方程求解Vi(X)
步驟212:(策略改進)通過下式更新控制策略:
步驟213:令返回步驟211,直到收斂到最小值;
在策略迭代算法中引入積分強化學習算法,在離散時間系統(4-1)上,對于任意積分區間T0,連續系統(4-13)中的值函數滿足如下形式:
利用積分強化學習算法實現對貝爾曼方程的解進行跟蹤,在采用積分強化學求解HJB方程在對系統動力學模型未知的情況下實現;
得到下面基于策略迭代的積分強化學習算法:
算法:基于策略迭代的離線積分強化學習算法求解HJB方程
步驟221:策略評估:給定控制輸入ui(x),通過下面貝爾曼方程求解Vi(X)
步驟222:策略改進:通過下式更新控制策略:
步驟223:令返回步驟221,直到收斂到最小值;
S25:基于強化學習算法設計自適應分布式觀測器實現多智能體的一致性分布式控制多智能體系統:
xi(k+1)=fi(x(k))+gi(x(k))ui(k)
yi(k)=cxi(k) (5-1)
其中,xi,ui,yi,分別表示系統的第i個智能體的狀態,控制輸入和輸出;
領導者模型考慮有如u()下形式:
ν(k+1)=Eν(k)
所參考的領導者模型中,是領導者系統的狀態,當智能體i滿足(ν0,νi)∈ε,跟隨者i與領導者之間存在通信連接時,表示一個已知的常數矩陣;Q滿足Q(0)=0,是外部參考信號;
設有觀測器:
其中,Ri(k)表示在k時刻智能體i相對于領導者的觀測值,且滿足R0(k)=ν(k),W0(k)=W,
根據上述系統描述,按照線性系統最優輸出問題公式的推導,得到該系統的一個代價函數:
其中,i=1,2,...,N,ri是折扣因子,c=[1,0,0,...0]通過對式(5-4)的求解,得到每個follower的最優反饋輸入:在解出函數最優反饋輸入時,將(5-4)寫成二次型函數形式,表示為系統的值函數:
得到如下貝爾曼方程:
根據上面貝爾曼方程,將非線性最優反饋中的HJB方程定義為:
當穩定性條件時,得到如下最優控制輸入:
其中,
采用IRL的策略迭代來求解上述HJB方程;
得到下面基于策略迭代的在線IRL多智能體最優反饋控制算法:
算法:基于策略迭代的在線IRL算法求解HJB方程
步驟231:初始化:選擇一個控制輸入重復以下步驟知道系統收斂;
步驟232:策略改進:通過下式更新控制策略:
步驟233:令ui(k)=ui+1(k)返回步驟231,直到Vi(k)收斂到最小值;
在系統(5-1)和(5-2)模型基礎上,考慮如下一階多智能體系統:
其中,分別表示第i個智能體在時刻k處的狀態和控制輸入;τij≥0表示數據從智能體j到智能體i的通信時滯,τi≥0表示智能體i自身的輸入時滯;考慮包含n個智能體的一階離散多智能體系統,其網絡拓補結構為靜態有向加權圖,且包含一個全局可達節點,如果滿足則有:max{di(2τi+1)}<1
則系統能實現漸進一致,其中,
假設多智能體系統包含5個節點,其相對應的鄰接矩陣如下:
根據以上設定,智能體的輸入時滯應滿足
假設:τ13=1s,τ21=0.75s,τ32=1.8s,τ42=2s,τ51=0.8s,輸入時滯τ=0.5s,并隨機產生智能體的初始狀態為x(0)=(2.5,3,2,3.5,5),各智能體最終漸進趨于一致;將輸入時滯換為3s,系統依然實現一致。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110184288.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于圖像識別核酸檢測方法
- 下一篇:深度測量方法、芯片和電子設備





