[發明專利]一種基于強化學習的水下滑翔機智能控制系統及方法有效
| 申請號: | 202010518047.2 | 申請日: | 2020-06-09 |
| 公開(公告)號: | CN111813143B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 王樹新;王延輝;楊紹瓊;張連洪;牛文棟;馬偉 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G05D1/10 | 分類號: | G05D1/10;G05D1/00 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 劉子文 |
| 地址: | 300350 天津市津南區海*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 水下 滑翔機 智能 控制系統 方法 | ||
本發明公開一種基于強化學習的水下滑翔機智能控制系統,包括狀態轉化單元、策略單元和評價單元,狀態轉化單元用于將獲得的目標軌跡信息與滑翔機當前位置信息進行提取和計算并形成狀態數組;所述策略單元由深度學習神經網絡A構成,該深度學習神經網絡A的輸入為狀態數組,輸出為動作,用于軌跡跟蹤的動作為[航向角、俯仰角、回油量];評價單元由深度學習神經網絡B構成,深度學習神經網絡B的輸入為狀態數組、獎勵Rtemp,輸出為值函數V;依據策略單元輸出的動作[航向角、俯仰角、回油量],對于航向角與俯仰角,在滑翔機下潛后采用PID控制執行。
技術領域
本發明涉及水下航行器領域,具體涉及一種基于強化學習的水下滑翔機(UG)自主學習和自主決策的控制技術,用于實現低能耗目標條件下的軌跡跟蹤控制。
背景技術
自主學習和自主決策的控制技術,借鑒人的學習和決策過程,可以使滑翔機在復雜的海洋環境中積累過往的控制經驗,獲取知識,不斷完善自身的性能和適應性以達到設定的控制目標。近年來,隨著機器學習理論的成熟和技術的應用,水下航行器領域也開展了智能控制方向的研究。強化學習是一類機器學習算法,通過與環境的不斷交互,以狀態和獎勵作為反饋進行行為決策的學習方法,隨著交互次數的提升,能夠逐步改善行為,最終獲得最優行為。
航行器的軌跡跟蹤控制是指航行器從給定的初始狀態出發,在跟蹤控制器的控制下達到并跟蹤空間中的一條由時間參數決定的軌跡,用于對動態目標點的跟蹤。基于能耗目標的軌跡跟蹤是一種多目標優化。
目前國內外學者在水下滑翔機的基于能耗的路徑跟蹤控制方面做了一定的工作,主要集中在通過分析滑翔機動力學與運動特性建立能耗模型進行滑翔機的行為控制和通過分析水下滑翔機的不同行為下的能耗數據得到行為與能耗的映射關系。以上控制需要人為監控,缺少自主決策的智能性。無法實現軌跡跟蹤。
發明內容
本發明的目的是為了克服現有技術中的不足,提供一種基于強化學習的水下滑翔機智能控制系統及方法,以實現水下滑翔機在能耗約束下的軌跡跟蹤控制,一方面自主實現軌跡跟蹤控制,另外一方面減少能源消耗,有利于提升水下滑翔機的航程。
本發明的目的是通過以下技術方案實現的:
一種基于強化學習的水下滑翔機智能控制系統,包括狀態轉化單元、策略單元和評價單元,所述狀態轉化單元用于將獲得的目標軌跡信息與滑翔機當前位置信息進行提取和計算并形成狀態數組;
所述策略單元由深度學習神經網絡A構成,該深度學習神經網絡A的輸入為狀態數組,輸出為動作,用于軌跡跟蹤的動作為[航向角、俯仰角、回油量];當獲得當前狀態,策略單元輸出動作,即智能決策的輸出;對深度學習神經網絡A的訓練是采用其自身神經網絡輸出與評價單元輸出的誤差,訓練過程是向著減少誤差的方向更新;對訓練好的深度學習神經網絡A進行權值保存;
所述評價單元由深度學習神經網絡B構成,深度學習神經網絡B的輸入為狀態數組、獎勵Rtemp,輸出為值函數V;通過建立記憶庫,采用批次學習法對深度學習神經網絡B進行訓練;
上述單元完成決策后,依據策略單元輸出的動作[航向角、俯仰角、回油量],對于航向角與俯仰角,在滑翔機下潛后采用PID控制執行。
進一步的,狀態轉化單元中,依據當前狀態得到當前狀態的獎勵Rtemp=f(Rdis,Reny),即該獎勵為軌跡保持的獎勵與能耗的獎勵的函數;Rdis表示水下滑翔機與被跟蹤目標的距離值,水下滑翔機一個剖面結束后浮出水面,通過與衛星通訊獲得自身位置與目標位置,計算可得該數值;Reny表示動作的能量消耗,可通過水下滑翔機電壓值及能耗公式進行計算。
進一步的,所述記憶庫能夠用于策略單元與評價單元的神經網絡訓練,考慮到海洋的時變性,記憶庫中的記憶按照時間的不同賦予不同權重,距離當前時間越近的記憶權重越大,距離當前時間越遠的記憶權重越小,記憶庫滿后用新的記憶覆蓋舊的記憶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010518047.2/2.html,轉載請聲明來源鉆瓜專利網。





