[發明專利]一種基于強化學習的姿態控制裝置、系統以及方法在審
| 申請號: | 202210333060.X | 申請日: | 2022-03-30 |
| 公開(公告)號: | CN114638346A | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 吳鳳鴿;甘泉;趙軍鎖;鐘方潔;高航 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N7/00 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 李飛 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 姿態 控制 裝置 系統 以及 方法 | ||
1.一種基于強化學習的姿態控制裝置,其特征在于,所述裝置包括:
無模型強化學習控制器,被配置為根據當前狀態得到初始動作控制量;
歷史CBF控制器,被配置為根據所述當前狀態得到歷史安全動作控制量;
CBF控制器,被配置為根據所述初始動作和所述歷史安全動作得到當前安全動作控制量;
神經網絡李雅普諾夫學習器,被配置為判定綜合安全動作控制量的安全性,并在確認所述綜合安全動作控制量安全時向動力學模型提供所述綜合安全動作控制量,其中,所述綜合安全動作控制量根據所述初始動作控制量、所述歷史安全動作控制量以及所述當前安全動作控制量確定的。
2.如權利要求1所述的姿態控制裝置,其特征在于,所述CBF控制器被配置為通過如下公式(1)得到所述當前安全動作控制量;
其中,∈在安全條件下是松弛變量,K∈是懲罰安全違規行為的常數,求解上述公式得到的at為所述當前安全動作控制量,||at||2指的是動作向量at的所有值的平方和,argmin表征取最小值的操作。
3.如權利要求2所述的姿態控制裝置,其特征在于,通過如下限制條件求解所述公式(1):
且
對于所有的i=1,2……,M
其中,PT表征控制障礙函數控制參數向量的轉置,q是控制參數,是無模型強化學習控制器根據當前狀態的得到的初始動作控制量,是第j次循環迭代過程中CBF控制器得到的安全動作控制量,μd(st)和σd(st)是高斯過程計算到的系統狀態的期望和方差,kδ是滿足高斯回歸的置信區間參數,η表征調整控制障礙條件的參數,指的是所述無模型強化學習控制器,指的是控制維度i得控制量的上界,指的是控制維度i的控制量的下界,|p|T是向量p的所有項的絕對值組成的向量的轉置。
4.如權利要求1所述的姿態控制裝置,其特征在于,所述歷史CBF控制器根據如下公式得到所述歷史安全動作控制量:
其中,到表示每次循環時由所述CBF控制器計算得到,k用于記錄循環次數且k的取值范圍為大于或等于1。
5.如權利要求1-4任一項所述的姿態控制裝置,其特征在于,所述綜合安全動作控制量為所述初始動作控制量、所述歷史安全動作控制量以及所述當前安全動作控制量的和。
6.一種基于強化學習的姿態控制系統,其特征在于,所述系統包括:
動力學模型,被配置為提供當前狀態或者接收輸入的綜合安全動作控制量;以及
如權利要求1-5任一項的基于強化學習的姿態控制裝置。
7.一種基于強化學習的姿態控制方法,其特征在于,所述姿態控制方法包括:
通過無模型強化學習算法得到初始動作控制量,并通過歷史CBF控制器得到歷史安全動作控制量;
將所述初始動作控制量和所述歷史安全動作控制量輸入CBF控制器得到當前安全動作控制量;
通過李雅普諾夫算法判定綜合安全動作控制量的安全性,并在確認所述綜合安全動作控制量安全時將所述綜合安全動作控制量向動力學模型發送。
8.如權利要求7所述的姿態控制方法,其特征在于,在通過無模型強化學習算法得到初始動作控制量,并通過歷史CBF控制器得到歷史安全動作控制量之前,所述控制方法還包括:
對所述無模型強化學習控制器和所述歷史CBF控制器進行參數初始化。
9.如權利要求8所述的姿態控制方法,其特征在于,所述無模型強化學習采用的控制算法包括近端策略優化PPO或者軟演員評論家算法SAC。
10.如權利要求8所述的姿態控制方法,其特征在于,與所述無模型強化學習控制器對應的參數包括:記憶池D和動作池A,其中,所述記憶池D用于交互數據(s,u,r,s′),s是所述當前狀態,u是執行動作,r是即時回報,s’是下一時刻的狀態,所述記憶池用以對所述無模型強化學習控制器進行學習和更新參數θ,所述動作池儲用于存儲動作數據(s,u),其中,所述動作池用以對所述歷史CBF控制器進行監督學習。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210333060.X/1.html,轉載請聲明來源鉆瓜專利網。





