[發明專利]一種基于強化學習的智能船舶自主避碰及路徑規劃方法有效
| 申請號: | 202011222017.3 | 申請日: | 2020-11-05 |
| 公開(公告)號: | CN112180950B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 萬程鵬;趙銀祥;崔一帆;張笛;張金奮 | 申請(專利權)人: | 武漢理工大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 湖北武漢永嘉專利代理有限公司 42102 | 代理人: | 李丹 |
| 地址: | 430070 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 智能 船舶 自主 路徑 規劃 方法 | ||
1.一種基于強化學習的智能船舶自主避碰及路徑規劃方法,其特征在于,包括以下步驟:
1)獲取本船周圍的環境信息以及本船信息,感知環境狀態空間;
所述環境信息為本船周圍的船舶信息包括周圍船舶的經度、緯度、航速、航向、船長、船寬、真方位、相對方位、MMSI信息;
所述本船信息包括船速、航向、吃水深度、經度、緯度信息;
2)根據環境狀態空間內的障礙物位置、航速,航向在內的相關信息計算避碰參數,判斷是否存在碰撞風險;
3)如果無碰撞風險,則直接進行路徑規劃;如果存在碰撞風險,則建立融合LSTM和強化學習原理搭建的智能船避碰模型,尋找避讓的最佳避碰策略,獲取對應的本船避碰所需的航速和航向;
所述步驟3)中建立融合LSTM和強化學習原理搭建的智能船避碰模型,具體如下:
3.1)根據對環境的感知構建Markov決策過程E=S,R,P,A,其中,S為狀態空間,R為獎勵空間,P為狀態轉移概率,A為動作空間;
3.2)數據準備:對船舶的靜態數據和動態參數進行預處理,包括:
數據核驗,對數據的完整性和準確性進行審核,刪除錯誤的數據,并對缺失的數據進行補充;
數據去重,刪除同一MMSI船舶、同一時刻的重復數據;
數據降噪,刪除異常數據;
3.3)模型訓練:將準備好的數據輸入融合LSTM和強化學習原理搭建的模型進行訓練;
3.4)根據訓練得到可行的避碰策略更新本船的位置、航向、航速信息,同時返回獎勵值,然后把獎勵值代入動作價值函數,通過求解Bellman最優方程確定最有價值,從而確定最優避碰策略,然后根據最優避碰策略確定本船的航向和航速,并更新獎勵值;
利用Bellman方程不斷更新價值函數,直到最優價值收斂,從而獲取最優避碰策略,即航速和航向;
狀態價值函數:
其中,vπ(s)為狀態價值函數,qπ(s,a)為動作價值函數,S表示狀態空間,s表示狀態,a表示動作;
動作價值函數:
其中,p(s′|s,a)為狀態轉移概率,r(s,a)為“狀態-動作”的期望獎勵,γ為折扣系數,A表示動作空間,s′表示下一狀態;
最優狀態價值和最優動作價值滿足Bellman最優方程:
用Bellman最優方程求解出最優價值后,采用確定出一個確定性的最優策略;
4)避碰策略執行結束之后,根據設定條件確定碰撞風險消失的臨界位置點作為新的起點,然后利用路徑規劃算法重新進行路徑規劃。
2.根據權利要求1所述的基于強化學習的智能船舶自主避碰及路徑規劃方法,其特征在于,所述步驟3)中進行路徑規劃是利用Dijkstra算法進行路徑規劃。
3.根據權利要求1所述的基于強化學習的智能船舶自主避碰及路徑規劃方法,其特征在于,所述步驟2)中避碰參數包括:DCPA、TCPA、SDA,計算如下:
DCPA計算公式:
TCPA計算公式:
其中(x,y)表示本船的位置,(x0,y0)表示障礙物的位置,表示相對航向,αt目標船真方位,vr表示相對航速;
SDA計算公式:
其中,Rf、Ra、Rp、Rs分別船舶領域模型的縱向半徑的前后半徑,橫向半徑的左右半徑,q為障礙物方位。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢理工大學,未經武漢理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011222017.3/1.html,轉載請聲明來源鉆瓜專利網。





