[發明專利]基于自適應動態規劃的自主式水下機器人控制方法和系統有效
| 申請號: | 202110063508.6 | 申請日: | 2021-01-18 |
| 公開(公告)號: | CN112859889B | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 胡滿江;葉俊;邊有鋼;秦兆博;徐彪;秦洪懋;秦曉輝;謝國濤;王曉偉;丁榮軍 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G05D1/06 | 分類號: | G05D1/06 |
| 代理公司: | 北京匯智勝知識產權代理事務所(普通合伙) 11346 | 代理人: | 石輝;趙立軍 |
| 地址: | 410082 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自適應 動態 規劃 自主 水下 機器人 控制 方法 系統 | ||
1.一種基于自適應動態規則的自主式水下機器人控制方法,其特征在于,包括:
步驟1,構建自主式水下機器人控制中的狀態量、控制變量、轉移環境、效用函數和代價函數;
步驟2,通過構建自適應動態規劃的執行網絡對策略進行提升以及通過構建自適應動態規劃的評價網絡對策略進行評估;
其中:
執行網絡用于根據k時刻的狀態量sk,估計與sk所對應的k時刻控制變量u(sk);
評價網絡用于根據sk和u(sk),估計與sk和u(sk)所對應的代價函數J(sk,u(sk))的近似值;
步驟3,預設控制律u(sk),利用式(13)對策略進行評估:
Jj+1(sk,u(sk))=U(sk~n,uj(sk~n))+γn+1Jj+1(sk+n+1,u(sk+n+1)) (13)
其中,j為每次進行策略評估時的循環迭代次數;sk+n+1通過sk經由轉移環境f(·)得到,u(sk+n+1)通過u(sk)經由轉移環境f(·)得到;γ為折扣因子;Jj+1(sk,u(sk))為代價函數第j+1次循環迭代后的近似值;n為預測步數;β為執行網絡的權值;U(sk~n,uj(sk~n))為n步效用函數之和,其表示為式(14):
依據式(13)進行代價函數的更新,其中,在第j+1次循環迭代時,實際是進行多次Ji+1(sk,u(sk))=U(sk~n,uj(sk~n))+γn+1Ji(sk+n+1,u(sk+n+1))代價函數更新,以至Ji+1(sk,u(sk))-Ji(sk,u(sk))=0;
式中,i為進行第j次策略評估時達到J(sk,u(sk))=U(sk~n,uj(sk~n))+ γn+1J(sk+n+1,u(sk+n+1))需要進行的內部循環次數;
轉移環境f(·)用于使自主式水下機器人在當前時刻狀態量與控制變量的作用下,轉移得到下一時刻的狀態量,表示為:
其中,s(t)表示狀態量,u(t)表示控制變量;效用函數用于評價自主式水下機器人在當前時刻狀態下采取的控制動作的優劣,其表示為式(8):
其中,Q為對應于s=[w,q,θ,z]T中的四個狀態量的對稱且正定的權重矩陣;R為對應于控制量的對稱且正定的權重矩陣;為當前k時刻狀態量與目標狀態值的誤差,sk表示k時刻的狀態量;u(sk)表示時刻與sk對應的控制量;
步驟4,預設控制律u(sk),基于自適應動態規劃的過程表示為采用式(18)對策略進行提升,使得J(s,u)值更小:
其中,uj+1(sk)為k時刻第j+1次循環迭代執行網絡的輸出;
步驟5,重復步驟3至步驟4,直至循環迭代次數j大于規定次數或相鄰兩次循環迭代之后的代價函數差值Jj+1(sk,u(sk))-Jj(sk,u(sk))小于設定值時,迭代循環過程終止。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110063508.6/1.html,轉載請聲明來源鉆瓜專利網。





