[發明專利]基于強化學習的波動鰭推進水下作業機器人追蹤控制方法有效
| 申請號: | 201911077089.0 | 申請日: | 2019-11-06 |
| 公開(公告)號: | CN111079936B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 王宇;唐沖;王睿;王碩;譚民;馬睿宸 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;B63C11/52 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 波動 推進 水下 作業 機器人 追蹤 控制 方法 | ||
1.一種基于強化學習的波動鰭推進水下作業機器人追蹤控制方法,其特征在于,該方法包括以下步驟:
步驟S100,獲取t時刻水下作業機器人的系統狀態信息及待跟蹤目標在所述水下作業機器人隨體坐標系下的位姿信息,構建馬爾科夫決策過程的狀態信息st;
步驟S200,基于st,通過Actor-Critic強化學習模型中的Actor網絡獲取波動鰭的波動頻率at;
步驟S300,基于at對水下作業機器人的波動鰭進行控制,令t=t+1,跳轉步驟S100;
其中,所述Actor-Critic強化學習模型包括Actor網絡和Critic網絡,其通過離線訓練得到,訓練方法為:
步驟A100,獲取預設的訓練數據集中t時刻水下作業機器人的系統狀態信息及待跟蹤目標在所述水下作業機器人隨體坐標系下的位姿信息,構建馬爾科夫決策過程的狀態信息st;
步驟A200,獲取t時刻的監督訓練概率、隨機監督概率,若所述監督訓練概率大于所述隨機監督概率,則基于st,通過PID控制器獲取波動鰭的波動頻率at,否則基于st,通過Actor網絡獲取波動鰭的波動頻率at;
步驟A300,基于st和at,分別通過Actor-Critic強化學習模型中的Critic網絡和預設的獎勵函數獲取狀態-動作評價值Q*(st,at)、獎勵值rt;
步驟A400,基于Q*(st,at),通過確定性策略梯度算法更新所述Actor網絡的參數;并基于Q*(st,at)、rt,更新所述Critic網絡的參數;
步驟A500,令t=t+1,循環執行步驟A100-步驟A400,直至t大于預設的訓練次數,得到訓練好的Actor網絡。
2.根據權利要求1所述的基于強化學習的波動鰭推進水下作業機器人追蹤控制方法,其特征在于,所述Actor網絡包括四個卷積層;第一個卷積層和第二個卷積層的神經元個數為200,激活函數為Relu6函數,第三個卷積層的神經元個數為10,激活函數為Relu函數,第四個卷積層神經元個數為2,激活函數為tanh函數。
3.根據權利要求1所述的基于強化學習的波動鰭推進水下作業機器人追蹤控制方法,其特征在于,所述Critic網絡包含五個卷積層,第一、二、三個卷積層的神經元個數為200,激活函數為Relu6函數,第四個卷積層的神經元個數為10,激活函數為Relu函數,第五個卷積層神經元個數為1,激活函數為線性激活函數。
4.根據權利要求3所述的基于強化學習的波動鰭推進水下作業機器人追蹤控制方法,其特征在于,步驟A200中“獲取t時刻的監督訓練概率、隨機監督概率”,其方法為:
PROt=PRO0*0.999t
PROr=max(rand(1),0.01)
其中,PROt為t時刻的監督訓練概率,PROr為隨機監督概率,PRO0為預設的初始監督訓練概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911077089.0/1.html,轉載請聲明來源鉆瓜專利網。





