[發明專利]基于強化學習的電機系統H無窮降階輸出跟蹤控制方法在審
| 申請號: | 202310067097.7 | 申請日: | 2023-01-30 |
| 公開(公告)號: | CN116208041A | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 周林娜;厲功賀;楊春雨;褚眾;王海;劉曉敏 | 申請(專利權)人: | 中國礦業大學 |
| 主分類號: | H02P21/00 | 分類號: | H02P21/00;H02P21/14;G06N3/045;G06N3/092 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 潘文龍 |
| 地址: | 221000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 電機 系統 無窮 輸出 跟蹤 控制 方法 | ||
1.基于強化學習的電機系統H無窮降階輸出跟蹤控制方法,其特征在于,包括以下步驟:
步驟一:利用奇異攝動理論,將原始電機系統H無窮輸出跟蹤控制問題進行分解得到降階系統問題;
步驟二:基于原系統的輸出狀態數據,提出虛擬子系統的狀態重構機制解決虛擬子系統數據不可測的問題,進一步推導基于重構數據的H無窮輸出跟蹤強化學習迭代算法;
步驟三:引入執行-評價-擾動神經網絡近似控制器、性能指標和擾動,基于最小二乘法迭代更新神經網絡的權重,得到基于強化學習的降階控制器。
2.根據權利要求1所述的基于強化學習的電機系統H無窮降階輸出跟蹤控制方法,其特征在于,步驟一中,電機系統用以下狀態空間模型描述:
其中x1,x2為電機系統狀態變量,u=[u1,…,um]是控制輸入,w=[w1,…wq]是外部擾動,f11、f12、f21、f22是系統動態,g1、g2是輸入動態,k是擾動動態且0ε<<1是奇異攝動參數;假設f11、f12、f21、f22、g1、g2、k完全未知且Lipchitz連續,f(0)=0且f22可逆,在不施加快控制器的情況下,快子系統在短時間內漸近穩定;
為使系統慢狀態x1跟蹤一個有界參考軌跡r(t),假設存在一個Lipchitz連續函數,使得
定義跟蹤誤差為
ρ=Cx1-r(t);
跟蹤誤差動態為
原始H無窮輸出跟蹤控制問題為:設計狀態反饋控制器u=χ(ρ,r),存在擾動的情況下滿足下式定義的L2增益條件,不存在擾動的情況下跟蹤誤差收斂到0;
其中||z||2=ρTQρ+uTRu為定義的虛擬控制輸出,α0是折扣因子,γ表示從干擾輸入w(t)到定義的性能輸出變量z(t)的衰減水平,Q=[C1?C2]T[C1?C2]0,R0;
原系統簡化為如下降階系統:
y=Cx1s;
其中C為系統輸出矩陣,x1s為降階系統狀態且
原始H無窮輸出跟蹤控制問題簡化為如下H無窮降階輸出跟蹤問題:
設計控制器us,使得降階系統輸出狀態軌跡Cx1s跟蹤參考軌跡r(t);
定義降階系統輸出跟蹤誤差為
ρs=Cx1s-r(t);
跟蹤誤差動態為
定義了虛擬的控制輸出如下:
||z||2=ρsTQρs+usTRus;
H無窮降階輸出跟蹤控制問題的目標是根據跟蹤誤差ρs和參考軌跡r,找到一個光滑函數χ的控制策略us=χ(ρs,r),使其滿足以下條件:
1)存在擾動的情況下,系統滿足以下L2增益條件:
2)不存在擾動的情況下,輸出跟蹤誤差趨近于0。
3.根據權利要求1所述的基于強化學習的電機系統H無窮降階輸出跟蹤控制方法,其特征在于,步驟二中,虛擬子系統的狀態重構機制為:利用原系統慢動態狀態x1重構不可測的虛擬子系統狀態,基于重構數據x1的慢子系統H無窮強化學習迭代算法為:
其中,i為慢控制器迭代指標。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國礦業大學,未經中國礦業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310067097.7/1.html,轉載請聲明來源鉆瓜專利網。





