[發明專利]一種基于深度強化學習的水下滑翔機姿態控制方法在審
| 申請號: | 202010925225.3 | 申請日: | 2020-09-06 |
| 公開(公告)號: | CN112100834A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 高劍;宋保維;潘光;張福斌;王鵬;曹永輝;杜曉旭;彭星光 | 申請(專利權)人: | 西北工業大學 |
| 主分類號: | G06F30/20 | 分類號: | G06F30/20;G06N3/04;G06N3/06;G06N3/08 |
| 代理公司: | 西北工業大學專利中心 61204 | 代理人: | 陳星 |
| 地址: | 710072 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 水下 滑翔機 姿態 控制 方法 | ||
本發明提出一種基于深度強化學習的水下滑翔機姿態控制方法,包括學習階段和應用階段,在學習階段通過仿真模擬水下滑翔機的運動過程同時記錄運動的實時數據,根據運動數據更新當前決策神經網絡、當前評價神經網絡、目標決策神經網絡和目標評價神經網絡的參數;得到訓練完成的深度強化學習神經網絡模型后,應用到實際水下滑翔機在縱平面滑翔運動中,給定目標俯仰角θd,采集水下滑翔機的狀態值輸入到深度強化學習神經網絡模型得到控制量實現水下滑翔機姿態控制。本發明基于仿真模型數據或者人工實驗數據進行學習,實現水下滑翔機姿態的控制,學習方式簡單;而且無需得到水下滑翔機的精確數學模型,同時在復雜環境下同樣適用。
技術領域
本發明涉及一種水下機器人的控制技術,具體說是一種基于深度強化學習的水下滑翔機姿態控制方法。
背景技術
水下滑翔機是一種將浮標、潛標技術與水下機器人技術相結合而研制出的一種無外掛、依靠自身重力驅動的新型水下航行器。其主要特點是:運動控制不依靠螺旋槳推進系統,而是通過調節滑翔機凈浮力,實現上下沉浮運動,利用附于機身的水平機翼產生斜向上、或斜向下的升力,操縱滑翔機向前滑翔。水下滑翔機克服了水下航行器功率大、航行時間短的缺點,大大降低了運行成本和制造成本,提高了續航時間,在軍事上和海洋探索研究上非常有實用價值。
水下滑翔機的運動姿態容易受海流與波浪的影響,同時水下滑翔機機體結構復雜,動力方式單一,動力學模型表現為強非線性,準確的模型參數不易得到而且在不同的水域環境下構建的模型也缺乏普適性。雖然許多傳統的控制方法可以實現水下滑翔機的姿態控制且能達到一定的控制精度,但仍然不能滿足高精度的要求,而且控制過程較為復雜。
發明內容
要解決的技術問題
本發明的目的是克服現有技術的缺點和不足,提供一種基于深度強化學習的水下滑翔機姿態控制方法,建立深度強化學習神經網絡模型,通過對仿真模型數據或者人工實驗數據進行學習,可以實現水下滑翔機姿態的精確控制。
技術方案
本發明提出的基于深度強化學習的水下滑翔機姿態控制方法包括學習階段和應用階段,在學習階段通過仿真模擬水下滑翔機的運動過程同時記錄運動的實時數據,根據運動數據更新當前決策神經網絡、當前評價神經網絡、目標決策神經網絡和目標評價神經網絡的參數,具體步驟如下:
步驟1:建立4個BP神經網絡,分別為當前決策神經網絡、當前評價神經網絡、目標決策神經網絡和目標評價神經網絡。當前決策神經網絡與目標決策神經網絡稱為決策神經網絡,當前評價神經網絡和目標評價神經網絡稱為評價神經網絡。決策神經網絡采用水下滑翔機的狀態值作為輸入量,而采用水下滑翔機的控制量a作為輸出動作。評價神經網絡有以水下滑翔機的狀態值和控制量為輸入,以評價值為輸出;
構建神經網絡之后,初始化4個神經網絡的參數,初始化記憶庫以及數據緩沖區的大小。
步驟2:獲得當前時刻下水下滑翔機的狀態值st,將狀態值輸入當前決策神經網絡計算出在當前時刻姿態控制器的輸出動作at,將輸出的動作at施加給水下滑翔機仿真器,得到下一時刻水下滑翔機的狀態值st+1。根據當前時刻的狀態st、當前時刻的動作at、目標俯仰角θd和下一時刻的狀態st+1計算出當前時刻的獎勵值rt。
優選rt取值為:
rt=r1+r2+r3
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西北工業大學,未經西北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010925225.3/2.html,轉載請聲明來源鉆瓜專利網。





