[發明專利]一種基于深度強化學習的動態AUV追蹤路徑規劃方法有效
| 申請號: | 202110283966.0 | 申請日: | 2021-03-17 |
| 公開(公告)號: | CN113052372B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 趙玉新;劉延龍;鄧雄;楊碩;郝日栩;趙恒德;杜登輝;成小會 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 動態 auv 追蹤 路徑 規劃 方法 | ||
本發明提供一種基于深度強化學習的動態AUV追蹤路徑規劃方法,通過引入深度強化學習算法,運用航路模型來處理AUV的路徑追蹤問題。首先對目標和AUV狀態分析,判斷并選擇采用哪種航路進行追蹤,建立三種航路模型,用訓練好的模型對AUV下一狀態進行預測。采用純方位最小二乘估計法對檢測到的目標信號進行運動要素解算,獲得目標信息。將目標和AUV運動情況作為狀態輸入,AUV下一狀態的動作和航向作為輸出,建立狀態——動作映射策略。根據任務要求,選擇獎賞函數,AUV每段時間所采取的決策都會獲得相應評價。本發明結合深度學習和強化學習的優點,將深度強化學習算法用在AUV路徑追蹤上,實現了對動態AUV的追蹤路徑規劃。
技術領域
本發明涉及一種基于深度強化學習的動態AUV追蹤路徑規劃方法,屬于人工智能算法領域。
背景技術
AUV有很大的特點是噪聲小,航行在水下,借助于海水的遮蓋,隱蔽性很強,進行目標的追蹤有得天獨厚的優勢。海洋環境復雜,有暗礁、有淺灘還可能存在大小不一的島嶼和不易預測的洋流,為保證AUV的航行安全和對目標追蹤的準確性,必須對其進行航路規劃。路徑規劃的目的是探索一條能完成任務的最優路徑,據環境信息的確定與否可分為全局路徑規劃和局部路徑規劃。全局路徑規劃主要包括:A*算法、網格法、拓撲法等,主要解決環境信息已知的路徑規劃,局部路徑規劃包括:基于神經網絡方法、粒子群算法、遺傳算法等,主要解決環境信息部分已知或者未知的路徑規劃。
隨著機器學習、深度學習和強化學習等人工智能算法的發展,可以實現智能體通過對大量數據的學習獲得隱藏的知識。對于AUV的路徑規劃而言,研究的熱點是如何提高其環境自適應力和學習能力。強化學習(Reinforcement Learning,RL)是一種通過數據進行驅動的決策模型,通過智能體與環境進行交互,并在探索中學習進而獲得最優策略。此種方法尤其適合條件復雜的優化問題,讓智能體通過自學進行探索,有廣闊發展空間。
發明內容
本發明的目的是為了實現AUV路徑追蹤而提供一種提高AUV對環境自適應力和學習能力的深度強化學習方法,可以讓AUV通過學習探索而實現對智能體的路徑追蹤。
本發明的目的是這樣實現的:
通過引入深度強化學習(DQN)算法,運用航路模型來處理AUV的路徑追蹤問題。首先對目標和AUV狀態分析,判斷并選擇采用哪種航路進行追蹤,建立三種航路模型,用訓練好的模型對AUV下一狀態進行預測。采用純方位最小二乘估計法對檢測到的目標信號進行運動要素解算,獲得目標信息。將目標和AUV運動情況作為狀態輸入,AUV下一狀態的動作和航向作為輸出,建立狀態——動作映射策略。根據任務要求,選擇獎賞函數,AUV每段時間所采取的決策都會獲得相應評價。
一種基于深度強化學習的動態AUV追蹤路徑規劃方法,引入深度強化學習算法,運用航路模型來處理AUV的路徑追蹤問題,具體包括如下步驟:
步驟1:確定AUV的狀態與動作
首先要根據目標方位的變化量,判斷AUV轉入接近航路、反航路或者是離開航路,在確定完所要轉入的航路之后,再通過各自航路的DQN算法,由AUV和追蹤目標雙方作為深度神經網絡的輸入,產生相應的決策使計算的目標方位與實際測量方位保持在一定的限度以內,從而使AUV達到很好的追蹤效果;
AUV的位置、速度和目標方位的變化為輸入的狀態變量,AUV的速度大小和航向為輸出動作,由當前時刻的位置,通過改變其速度和航向即可獲得下一時刻的位置和航向:
步驟2:確定獎賞函數
選擇所計算的AUV預測方位與AUV執行動作后的實際方位的誤差倒數作為獎賞函數,誤差越小,所得到的獎賞值越大,代表對于AUV的控制越好、追蹤也越好;
進行獎勵時在一定時間內對實際方位與計算方位進行多次地比較,設定一個門限值,超過則認為獎賞值為1,在門限值以內就為0;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110283966.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





