[發明專利]一種基于貝葉斯深度強化學習的水下機器人智能控制方法有效
| 申請號: | 202210633134.1 | 申請日: | 2022-06-06 |
| 公開(公告)號: | CN114995468B | 公開(公告)日: | 2023-03-31 |
| 發明(設計)人: | 陳然;李蕾;陳昱同;于諶言;蔡樂周;王琪皓;董錦衡;王向群;袁銀龍;華亮 | 申請(專利權)人: | 南通大學 |
| 主分類號: | G05D1/06 | 分類號: | G05D1/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 226019 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 貝葉斯 深度 強化 學習 水下 機器人 智能 控制 方法 | ||
本發明涉及水下機器人技術領域,尤其涉及一種基于貝葉斯深度強化學習的水下機器人智能控制方法,包括以下步驟:S1、依據水下機器人搭載的傳感器系統感知水下環境信息;S2、構建水下機器人貝葉斯深度強化學習智能控制模型;S3、依據交互訓練完成水下機器人智能控制模型學習;S4、水下機器人智能控制方法部署應用。本發明能夠賦予水下機器人自主學習能力,能夠令水下機器人自主完成運動控制,提高水下機器人在水下作業的工作效率。
技術領域
本發明涉及水下機器人技術領域,尤其涉及一種基于貝葉斯深度強化學習的水下機器人智能控制方法。
背景技術
海上風電成為新型能源的主導行業,然而海上風電樁的維修成為了一大難題。目前人工水下檢修水下工程設備檢測及維護,對于傳統的人工來說存在安全隱患,所以對于水下機器人進行海上風電樁水下結構件檢修方法有著迫切的需求,然而有些水下機器人實施中存在人工控制的局限性。
因此國外學者開展了自主控制方法研究,但是大多需要構建動力學模型,在實際操作中精確的動力學模型是很難獲取的。另一方面,許多最新研究成果顯示強化學習無需構建運動學模型即可實現機器人的自主運動控制,但鮮有在水下機器人循跡方面應用,為此本發明提供一種基于貝葉斯深度強化學習的水下機器人智能控制方法。
發明內容
本發明的目的是為了解決現有技術中存在的缺點,而提出的一種基于貝葉斯深度強化學習的水下機器人智能控制方法,能夠賦予水下機器人由淺向深的學習能力,能夠令水下機器人自主完成機動規避決策,提高水下機器人自主導航的精準度。
為了實現上述目的,本發明采用了如下技術方案:
一種基于貝葉斯深度強化學習的水下機器人智能控制方法,包括以下步驟:
S1、依據水下機器人搭載的傳感器系統感知水下環境信息;
S2、構建水下機器人貝葉斯深度強化學習智能控制模型;
S3、依據交互訓練完成水下機器人智能控制模型學習;
S4、水下機器人運動控制方法部署應用。
優選地,在步驟S1中,通過機器人本體搭載的超聲波、攝像機傳感系統獲取機器人姿態信息sr和感知的外界環境信息se,其中 px,py,pz分別為機器人的經度、緯度和深度信息,v,/φ分別為機器人的速度、航向角和俯仰角信息,分別為障礙物相對水下機器人的坐標信息,/為水流速度;s=f(se,sr)為系統整體的多模態信息,f為基于貝葉斯神經網的多模態信息融合網絡,把不同模態信息通過概率化建模進行統一。
優選地,在步驟S2中,將水下機器人智能控制模型建模為貝葉斯深度強化學習模型,其中深度強化學習的狀態信息為多模態信息s=(se,sr),動作 a=(a1,a2,a3,a4,a5,a6)為水下機器人6個螺旋槳的轉動速度,獎賞函數其中α,β為大于零的常系數,d1,d2分別為水下機器人到目標位置的距離和到障礙物的距離信息,貝葉斯深度強化學習結構包括Actor網絡μ、 Critic網絡Q、Actor target網絡μ'和Critic target網絡Q'四個部分,其中Actor網絡μ為貝葉斯神經網絡,Critic網絡Q、Actor target網絡μ'和 Critictarget網絡Q'為人工神經網絡,網絡Q、μ'和Q'應的網絡權重參數分別為θQ、θμ'和θQ',網絡μ的權重參數分布的均值為θμ。
優選地,所述步驟S3具體包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南通大學,未經南通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210633134.1/2.html,轉載請聲明來源鉆瓜專利網。





