[發明專利]基于增強學習的水下機器人姿態控制方法有效
| 申請號: | 201911079467.9 | 申請日: | 2019-11-07 |
| 公開(公告)號: | CN110703792B | 公開(公告)日: | 2022-12-30 |
| 發明(設計)人: | 朱延栓;戴曉強;趙強;袁文華 | 申請(專利權)人: | 江蘇科技大學 |
| 主分類號: | G05D1/08 | 分類號: | G05D1/08;G05B13/04 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 212008 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 增強 學習 水下 機器人 姿態 控制 方法 | ||
1.一種基于增強學習的水下機器人姿態控制方法,其特征在于,包括步驟:
(1)構建基于馬爾科夫序列的水下機器人動力學模型和回報函數;
(2)引入先驗知識,利用支持向量機算法作為函數逼近器,尋找最優策略;
(3)將通過增強學習的控制器應用到水下機器人系統中;
所述步驟1中,水下機器人動力學模型為:
其中,M是由剛體慣性和附加質量組成的慣性矩陣,C(ζ)是剛體項和附加質量項組成的哥式力和向心力矩陣,D(ζ)是由阻力引起的阻尼矩陣,g(n)是由重力和浮力引起的恢復力與力矩矢量,B是取決于推進器配置的控制矩陣,u是機器人推進器提供的力與力矩矢量;
是機器人在地球坐標系中的姿態,包括三維位置和三個歐拉角;ζ=(u,v,w,p,q,r)T是機器人在載體坐標系中的速度矢量,包括三個方向的線速度和角速度;
所述步驟1中,回報函數為:
rt=c1re(t)+c2re(t)
其中,c1,c2是反映姿態誤差e和誤差變化率對控制性能影響權重的系數;
策略優化目標函數為:
其中,γ為折扣因子,0<γ<1;
所述步驟2具體包括:
(2.1)根據先驗知識生成初始訓練樣本集St={(e1,u1),(e2,u2),…(en,un)},t=0;其中,e是增強學習控制器的狀態,u是增強學習控制器的輸出;
(2.2)根據樣本集St利用支持向量機算法得到策略π;
(2.3)利用策略梯度算法調整策略π的參數,得到新的策略π’;
(2.4)利用新的策略π’生成新的訓練樣本集St+1={(e1,u1),(e2,u2),…(en,un)};
(2.5)令t=t+1,繼續步驟2.2;
(2.6)判斷第2.2步生成的策略π和在第2.3步生成的策略π’值相等,即得到最優策略π;
所述步驟2.2中,策略π為:
其中,f為SVM逼近函數,σ2為樣本方差;
所述步驟2.3具體為,將π(e,u)參數化為π(u|θ,e),利用策略梯度算法調整參數θ,得到新的策略π’,策略梯度算法為:
其中,Qπ(e,u)為馬爾科夫決策行為值函數:
2.根據權利要求1所述的基于增強學習的水下機器人姿態控制方法,其特征在于,所述步驟2.6的判斷條件為|V(π)-V(π’)|<ε,ε為預先指定的某個很小的正數。
3.根據權利要求1所述的基于增強學習的水下機器人姿態控制方法,其特征在于,所述步驟2.6中最優策略π滿足目標函數J得到最大值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇科技大學,未經江蘇科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911079467.9/1.html,轉載請聲明來源鉆瓜專利網。





