[發明專利]一種基于強化學習的水下滑翔機智能控制系統及方法有效
| 申請號: | 202010518047.2 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111813143B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 王樹新;王延輝;楊紹瓊;張連洪;牛文棟;馬偉 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10;G05D1/00 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300350 天津市津南區海*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 水下 滑翔機 智能 控制系統 方法 | ||
1.一種基于強化學習的水下滑翔機智能控制系統,其特征在于,包括狀態轉化單元、策略單元和評價單元,所述狀態轉化單元用于將獲得的目標軌跡信息與滑翔機當前位置信息進行提取和計算并形成狀態數組;
所述策略單元由深度學習神經網絡A構成,該深度學習神經網絡A的輸入為狀態數組,輸出為動作,用于軌跡跟蹤的動作為[航向角、俯仰角、回油量];當獲得當前狀態,策略單元輸出動作,即智能決策的輸出;對深度學習神經網絡A的訓練是采用其自身神經網絡輸出與評價單元輸出的誤差,訓練過程是向著減少誤差的方向更新;對訓練好的深度學習神經網絡A進行權值保存;
所述評價單元由深度學習神經網絡B構成,深度學習神經網絡B的輸入為狀態數組、獎勵Rtemp,輸出為值函數V;通過建立記憶庫,采用批次學習法對深度學習神經網絡B進行訓練;
上述單元完成決策后,依據策略單元輸出的動作[航向角、俯仰角、回油量],對于航向角與俯仰角,在滑翔機下潛后采用PID控制執行;
狀態轉化單元中,依據當前狀態得到當前狀態的獎勵Rtemp=f(Rdis,Reny),即該獎勵為軌跡保持的獎勵與能耗的獎勵的函數;Rdis表示水下滑翔機與被跟蹤目標的距離值,水下滑翔機一個剖面結束后浮出水面,通過與衛星通訊獲得自身位置與目標位置,計算可得Rdis;Reny表示動作的能量消耗,可通過水下滑翔機電壓值及能耗公式進行計算。
2.根據權利要求1所述一種基于強化學習的水下滑翔機智能控制系統,其特征在于,所述記憶庫能夠用于策略單元與評價單元的神經網絡訓練,考慮到海洋的時變性,記憶庫中的記憶按照時間的不同賦予不同權重,距離當前時間越近的記憶權重越大,距離當前時間越遠的記憶權重越小,記憶庫滿后用新的記憶覆蓋舊的記憶。
3.一種水下滑翔機的軌跡跟蹤控制方法,基于權利要求1所述的水下滑翔機智能控制系統,其特征在于,包括以下步驟:
(1)初始化參數:設定滑翔機的初始位置,獲得目標的初始位置,同時設定學習率、學習批次、記憶庫容量、神經網絡權值賦隨機初值;
(2)依據狀態轉化單元進行狀態轉化,形成當前狀態S,采用策略單元中的深度學習神經網絡A進行動作選擇,輸出動作A[航向角、俯仰角、回油量];
(3)滑翔機通過PID控制,執行步驟(2)輸出的動作A,滑翔機下潛,執行V字剖面滑翔;
(4)在步驟(3)動作結束后,滑翔機則浮出水面,獲得當前位置信息O,及目標位置信息P;
(5)狀態轉化單元依據步驟(4)的位置信息,進行狀態轉化,形成狀態數組S′;由狀態數組S′計算獎勵值Rdis,獎勵值Rdis通過與g目標的計劃距離換算;動作A及狀態數組S′計算能耗值Reny,即將不同的動作值產生的能耗轉化為能耗值Reny;計算綜合即時獎勵Rtemp=f(Rdis,Reny);
(6)評價單元中通過狀態數組S由深度學習神經網絡B計算V值,計算價值誤差;在滿足學習批次的條件下對深度學習神經網絡B采用記憶庫中的記憶進行訓練;計算公式如下:
為V值在神經網絡參數為θ下的梯度,π(a|s′)為在s′狀態下選擇的動作為a的一個策略,Q(s′,a)為a狀態下獲得的s′狀態的行為動作值Q;yi,t為在t時刻的第i個V的現實值,r(si,t,ai,t)為在t時刻的第i個行為ai,t及獲得的t時刻的第i個狀態si,t下得到的獎勵值Rtemp,為在策略π下的任意策略φ中的t+1時刻的第i個狀態si下的V估計值;L為價值誤差,是一個均方根誤差,yi為第i個V現實值,為在策略π下的任意策略φ中的第i個狀態si下的V估計值;
(7)依據評價單元的價值誤差,對策略單元的深度學習神經網絡A進行訓練;
(8)將S′狀態設置為當前狀態;
(9)是否結束軌跡跟蹤的任務,如果“是”,則轉入步驟(2),“否”則結束循環,輸出軌跡曲線。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010518047.2/1.html,轉載請聲明來源鉆瓜專利網。





