[發明專利]一種基于深度強化學習的水下自主航行器動態避障方法有效
| 申請號: | 202110098934.3 | 申請日: | 2021-01-25 |
| 公開(公告)號: | CN112925319B | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 孫玉山;羅孝坤;張國成;李岳明;薛源;于鑫;張紅星 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06N3/04;G06N3/08 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 于歌 |
| 地址: | 150001 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 水下 自主 航行 動態 方法 | ||
1.一種基于深度強化學習的水下自主航行器動態避障方法,其特征在于,包括以下步驟:
步驟一:建立水下自主航行器模型與運動學模型,從而獲取水下自主航行器周圍障礙物的信息;
步驟二:采集水下自主航行器周圍機動障礙物的運動狀態信息,并構造動態障礙物狀態方程,所述運動狀態信息包括:運動狀態向量、狀態轉移矩陣、過程噪聲和輸入控制矩陣;
步驟三:利用概率數據關聯的粒子濾波方法根據動態障礙物狀態方程預測動態障礙物運動學模型;
步驟四:根據步驟一獲得的水下自主航行器周圍障礙物的信息和步驟三獲得的動態障礙物運動學模型,在笛卡爾坐標系下建立多動態障礙物的在線訓練環境,并融合多動態障礙物避障法生成避障策略;
步驟五:將步驟四生成的避障策略轉化為MDP模型,并建立水下自主航行器面對多個動態障礙物時MDP模型的狀態集和動作集;
步驟六:將狀態集作為MDP模型的輸入、動作集作為MDP模型的輸出,結合確定性深度策略梯度算法對MDP模型進行訓練,直至MDP模型下水下自主航行器能夠無碰撞的到達目標區域;
步驟七:利用訓練好的MDP模型引導水下自主航行器航行;
步驟一所述水下自主航行器模型包括:一個尾推進器、兩個側推進器和7個避障聲吶,水下自主航行器模型的測距聲吶采樣頻率為2Hz、探測距離為150m~200m,隨體坐標系下分布角度依次為:90°、60°、30°、0°、-30°、-60°、-90°;
運動學模型為水平面3自由度的運動學模型,其方程為:
其中,為水下自主航行器在大地坐標系下的水平面位置矢量,υ為水下自主航行器在載體下的水平面速度矢量,R(ψ)為轉換矩陣,ψ為水下自主航行器的偏航角,r為水下自主航行器在隨體坐標系下的偏航角速度;
步驟二中動態障礙物狀態方程包括:勻速運動模型在采樣間隔為T時的離散時間狀態方程和勻加速運動模型在采樣間隔為T時的離散時間狀態方程,
所述勻速運動模型在采樣間隔為T時的離散時間狀態方程表達式如下:
Xk+1=FCVXk+ωk+1,
其中,Xk+1和Xk分別為勻速運動模型在k+1和k時刻的狀態,FCV為勻速運動模型狀態轉移矩陣,ωk+1為勻速運動模型在離散時間內的過程噪聲,
所述勻加速運動模型在采樣間隔為T時的離散時間狀態方程表達式如下:
其中,和分別為勻加速運動模型在k+1和k時刻的狀態,FCA為勻加速運動模型狀態轉移矩陣,為勻加速運動模型在離散時間內的過程噪聲;
步驟四中,將水下自主航行器趨向目標行為作為引力勢場函數,將水下自主航行器規避動態障礙物行為作為水下自主航行器的斥力勢場函數,
所述避障策略為:
當水下自主航行器的聲吶探測到動態障礙物時,判斷動態障礙物是否進入水下自主航行器的斥力勢場作用域,
是,則避障子任務優先級大于目標趨向子任務優先級,持續改變航向角直至動態障礙物脫離水下自主航行器斥力勢場作用域,
否,則目標趨向子任務優先級大于避障子任務優先級,調整艏向為指向目標,使得水下自主航行器向目標區域行駛;
步驟五中MDP模型表達式為:
MDP=(S,A,Psa,R),
其中,S為狀態集,A為動作集,Psa為狀態轉移概率,R為獎賞函數;
步驟五中面對多個動態障礙物時MDP模型的狀態集S={S1,S2,...,St,...,ST},為水下自主航行器7個避障聲吶在t時刻所采集到的信號,
步驟五中面對多個動態障礙物時MDP模型的動作集A={a1,a2,...,at,...,aT},at={ω(t),V(t)},ω(t)和V(t)分別為水下自主航行器t時刻的偏航角速度和水平速度;
勻速運動模型狀態轉移矩陣FCV的表達式為:
其中,
勻加速運動模型狀態轉移矩陣FCA的表達式為:
其中,
引力勢場函數表達式為:
其中,k1為引力勢能增益系數,xt和yt分別為t時刻在笛卡爾坐標系下水下自主航行器位置的橫、縱坐標,xgoal和ygoal分別為在笛卡爾坐標系下目標區域中心位置的橫縱坐標;
斥力勢場函數表達式為:
其中,k2為斥力勢能增益系數,x′t和y′t分別為t時刻在笛卡爾坐標系下動態障礙物位置的橫、縱坐標,d(qt,q′t)為t時刻水下自主航行器與動態障礙物之間的距離,qt=(xt,yt),q′t=(x′t,y′t),d0為水下自主航行器斥力勢場作用域能影響的最大距離,L1和L2分別為水下自主航行器膨化為橢圓形后、橢圓形的長軸長度和短軸長度;
MDP模型中獎賞函數R在t時刻的獎勵值rt為:
rt=τ1r1(st,at,st+1)+τ2r2(st,at,st+1)+τ3r3(st,at,st+1),
其中,τ1為目標模塊的比例系數,τ2為安全模塊的比例系數,τ3為穩定性模塊的比例系數,r1(st,at,st+1)為目標模塊t時刻的獎勵值,r2(st,at,st+1)為安全模塊t時刻的獎勵值,r3(st,at,st+1)為穩定性模塊t時刻的獎勵值。
2.根據權利要求1所述的一種基于深度強化學習的水下自主航行器動態避障方法,其特征在于,步驟四中,結合水下自主航行器所在水域環境的地形信息構建訓練環境地圖模型,然后根據動態障礙物運動學模型在訓練環境地圖模型中加載多個動態障礙物,獲得笛卡爾坐標系下多動態障礙物的在線訓練環境。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110098934.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:遠程定量系統及方法
- 下一篇:一種緊急防側滑分力輪胎





