[發明專利]基于強化學習的波動鰭推進水下作業機器人追蹤控制方法有效
| 申請號: | 201911077089.0 | 申請日: | 2019-11-06 |
| 公開(公告)號: | CN111079936B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 王宇;唐沖;王睿;王碩;譚民;馬睿宸 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;B63C11/52 |
| 代理公司: | 北京市恒有知識產權代理事務所(普通合伙) 11576 | 代理人: | 郭文浩;尹文會 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 波動 推進 水下 作業 機器人 追蹤 控制 方法 | ||
本發明屬于水下作業機器人自主控制領域,具體涉及一種基于強化學習的波動鰭推進水下作業機器人追蹤控制方法、系統、裝置,旨在解決Actor網絡在訓練過程中收斂性和穩定性較差,導致目標追蹤精度較低的問題。本系統方法包括獲取t時刻水下作業機器人的系統狀態信息及待跟蹤目標在水下作業機器人隨體坐標系下的位姿信息,構建馬爾科夫決策過程的狀態信息st;基于st,通過Actor?Critic強化學習模型中的Actor網絡獲取波動鰭的波動頻率at;基于at對水下作業機器人的波動鰭進行控制,令t=t+1,進行循環。本發明通過PID控制器監督Actor網絡訓練,提升了網絡的穩定性和收斂性,提高了目標追蹤的精度。
技術領域
本發明屬于水下作業機器人自主控制領域,具體涉及一種基于強化學習的波動鰭推進水下作業機器人追蹤控制方法、系統、裝置。
背景技術
水下機器人的自主控制是當前研究的熱點和難點。隨著人類從海洋探測向海洋開發的轉換,對水下作業機器人的自主控制以及自主作業提出了新的挑戰。水下作業機器人的自主作業對于水下考古、水下捕撈、水下救援、水下工程等都具有重大意義。這將替代潛水員或者遙控ROV作業,實現水下長時間連續作業,提高水下作業的效率。
通常情況下,由于水下作業機器人不規則性和水下環境的復雜性,水下作業機器人很難建立準確水動力學模型,因此基于模型的機器人控制方法適應性較弱。強化學習依賴于系統的當前狀態,給出將要執行的動作,然后過渡到下一個狀態,是一種典型的無模型控制方法,對于復雜的水下環境和未知擾動具有較強的適應性。但強化學習的訓練是基于數據的經驗學習,成功的經驗對于訓練至關重要。在強化學習初始訓練階段,由于輸出效果不佳,且探索成功控制行為具有一定的偶然性,造成據庫中成功的經驗不足,從而導致強化學習模型中的Actor網絡收斂速度慢,學習效率低,直接影響到后續追蹤控制的精度。
發明內容
為了解決現有技術中的上述問題,即為了解決現有基于強化學習的追蹤控制方法由于強化學習模型中的Actor網絡在訓練過程中收斂性和穩定性較差,導致目標追蹤精度較低的問題,本發明第一方面,提出了一種基于強化學習的波動鰭推進水下作業機器人追蹤控制方法,該方法包括:
步驟S100,獲取t時刻水下作業機器人的系統狀態信息及待跟蹤目標在所述水下作業機器人隨體坐標系下的位姿信息,構建馬爾科夫決策過程的狀態信息st;
步驟S200,基于st,通過Actor-Critic強化學習模型中的Actor網絡獲取波動鰭的波動頻率at;
步驟S300,基于at對水下作業機器人的波動鰭進行控制,令t=t+1,跳轉構建模塊;
其中,所述Actor-Critic強化學習模型包括Actor網絡和Critic網絡,其通過離線訓練得到,訓練方法為:
步驟A100,獲取訓練數據集;并基于所述訓練數據集中t時刻水下作業機器人的系統狀態信息及待跟蹤目標在所述水下作業機器人隨體坐標系下的位姿信息,構建馬爾科夫決策過程的狀態信息st;
步驟A200,獲取t時刻的監督訓練概率、隨機監督概率,若所述監督訓練概率大于所述隨機監督概率,則基于st,通過PID控制器獲取波動鰭的波動頻率at,否則基于st,通過Actor網絡獲取波動鰭的波動頻率at;
步驟A300,基于st和at,分別通過Actor-Critic強化學習模型中的Critic網絡和預設的獎勵函數獲取狀態-動作評價值Q*(st,at)、獎勵值rt;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911077089.0/2.html,轉載請聲明來源鉆瓜專利網。





