[發明專利]一種基于強化學習的模型未知多智能體一致性控制方法有效
| 申請號: | 202110184288.2 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN112947084B | 公開(公告)日: | 2022-09-23 |
| 發明(設計)人: | 陳剛;林卓龍 | 申請(專利權)人: | 重慶大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400044 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 模型 未知 智能 一致性 控制 方法 | ||
本發明涉及一種基于強化學習的模型未知多智能體一致性控制方法,屬于智能化領域。本發明首先在設計自適應分布式觀測器時采用的方案有三個步驟組成。第一,設計了一個自適應分布式觀測器來估計系統矩陣和leader系統的狀態。第二,在設計自適應分布式觀測器后提出了一種在線計算觀測器方程解的方法。第三,為排除極少數極端情況,在假設每個follower不知道leader系統矩陣的情況下,綜合了自適應狀態反饋和自適應測量輸出反饋控制來解決系統分布式一致性輸出調節問題。本發明根據所估計的狀態,采用基于強化學習的方法設計控制器,通過迭代的方法得到最優解,實現多智能體系統的最優控制。
技術領域
本發明屬于智能化領域,涉及一種基于強化學習的模型未知多智能體一致性控制方法。
背景技術
多智能體系統的一致性控制問題的研究可以追溯到上世紀80年代,相關多智能體技術的研究最早是從研究移動機器人開始的。在過去的近十五年里,多智能體系統一致性控制研究領域發展迅速,許多新的系統被提出的領域已經從軍事作戰延伸到了移動傳感器網絡,商業公路,航空運輸以及搶險救災等各個方面。但是隨著控制質量的約束,分布式最優一致性問題都一直是現今控制領域的一大挑戰。多智能體系統的分布式一致性不僅需要滿足各智能體在行為上達到一致,而且需要做到整個系統的性能指標最優化。從更加嚴格的意義上來說,多智能體系統的分布式一致性控制是要以盡可能低的成本達到共識。而現今主流的研究多智能體控制的優秀學者針對多智能體系統的一致性控制問題給出了各種想法:如線性二次調節技術、自適應學習方法、模型預測控制技術、模糊自適應動態規劃。
而近幾十年來,強化學習(RL)作為一種可以在不了解或辨識系統動力學的情況下設計非基于模型的控制協議,從而得到了很廣泛的關注和很廣闊的應用前景。強化學習是受到生物系統的啟發,通過對累計獎勵進行優化,與給定的未知環境互動來學習最佳策略以最大化其長期性能,從而找到最優的控制策略。Rl算法是建立在某種成功的控制策略應該被記住的基礎之上,而后通過強化這種信號,使他們更有可能在第二次使用。從強化學習研究的一開始,RL方法就在智能體研究領域得到了十分廣泛的關注。當今主流的相關強化學習方面的研究,通常是在一個actor-critic結構上實現的,評論家根據測量的數據評估當前策略的性能,而而表演者則使用評論家評估得到的策略找到一個改進的策略。與經典的動態規劃方法相比,強化學習方法給出了一種能夠避免維數爆炸的可行方法。而另一方面,與傳統的自適應控制器相比,強化學習方法只需要考慮跟蹤誤差的動力學,可以最大限度的減少給系統帶來誤差的瞬態響應,同時保證整個系統的穩定性。強化學習(RL)算法的求解最優控制問題的主要優點是,它可以在不了解系統動力學的情況下從系統得到足夠的數據信息,而后基于策略迭代技術,在策略評估和策略改進兩個步驟之間進行迭代改進。
在對多智能體一致性控制的研究中,更多考慮的是系統部分未知,而跟隨者是可以隨時觀測領導者的狀態,通過構造領導者與跟隨者之間的通信網絡以及跟隨者之間的通信網絡,使整個系統達成行為上的一致。在大部分情況下,系統的狀態是無法用傳感器直接測量的,但是系統的輸入輸出卻是可以通過各種方法進行測得。現今流行的方法是通過構造一個全維觀測器對系統的狀態進行一個估計;如考慮如下一個簡單的線性系統:
同時構造一個與該系統相同的模擬線性系統:
其中ω和γ是模擬系統的輸入和輸出,也是原系統的估計值,設計模擬系統與原系統的誤差值為:e=ω-x,為使狀態估計誤差e趨于0,可以轉為分析可測量的輸出估計誤差γ-y,根據反饋控制的一般原理,只需要將輸出的估計誤差γ-y反饋至模擬系統的狀態處,而后設計控制器使得輸出估計誤差趨近于0,即此時狀態估計誤差也趨近于0。引入狀態觀測器輸出反饋矩陣H,得到如下形式:
將原系統的輸出方程和全維狀態觀測器的輸出方程帶入全維狀態觀測器的狀態方程中可得:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶大學,未經重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110184288.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于圖像識別核酸檢測方法
- 下一篇:深度測量方法、芯片和電子設備





