[發明專利]一種融合全局訓練的深度強化學習避障導航方法有效
| 申請號: | 202110049370.4 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112882469B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 項志宇;應充圣;葉育文 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 林超 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 全局 訓練 深度 強化 學習 導航 方法 | ||
1.一種融合全局訓練的深度強化學習避障導航方法,其特征在于,包括如下步驟:
(1)根據環境中部分已知的靜態障礙物信息以及機器人的初始點與目標點,規劃出由一系列路點組成的初始路徑;
(2)機器人從初始點沿著初始路徑向目標點運動;
(3)在機器人實時運動過程中,根據機器人當前所處的位置,選擇初始路徑中的路點作為機器人的臨時目標,機器人向著臨時目標運動;
在機器人向著臨時目標運動過程中,設置累計期望獎勵懲罰值,不斷進行機器人的多次導航,機器人導航過程中每一幀具有環境給予的獎勵懲罰值,從初始點到目標點的獎勵懲罰值累計處理為累計期望獎勵懲罰值,將當前幀的獎勵懲罰值加入機器人的交互數據;
將連續多幀的交互數據輸入深度學習網絡作為訓練數據,深度學習網絡預測輸出機器人從初始點到目標點的多種路徑及其對應的累計期望獎勵懲罰值,以累計期望獎勵懲罰值最大化進行訓練優化,直到深度學習網絡滿足精度要求;
然后針對待導航的機器人,將機器人當前幀的交互數據輸入到訓練后的深度學習網絡中,輸出最優的路徑及其對應的累計期望獎勵懲罰值,控制待導航的機器人按照最優的路徑運動以實現避障導航。
2.根據權利要求1所述的一種融合全局訓練的深度強化學習避障導航方法,其特征在于:所述步驟(1)中,用傳統的快速探索隨機樹算法規劃一條由一系列路點組成的初始路徑。
3.根據權利要求1所述的一種融合全局訓練的深度強化學習避障導航方法,其特征在于:在環境中,利用邊界和部分靜態障礙物的信息構建全局地圖,全局地圖輸入到快速探索隨機樹算法模塊中生成一條由多個路點組成的初始路徑。
4.根據權利要求1所述的一種融合全局訓練的深度強化學習避障導航方法,其特征在于:所述步驟(2)具體為:根據機器人在全局地圖中的位置,結合步驟(1)給出的初始路徑,在初始路徑中選擇一個位于機器人和目標點間的路點作為機器人的臨時目標;機器人將根據自身與臨時目標的相對位置關系,進行運動控制,向著臨時目標運動。
5.根據權利要求1所述的一種融合全局訓練的深度強化學習避障導航方法,其特征在于:所述步驟(3)中,每幀的交互數據包括當前機器人獲得機器人當前幀采集的雷達點云、當前幀的動作控制量和當前幀的獎勵懲罰值;初始化累計期望獎勵懲罰值為零,獎勵懲罰值分為包含運動獎勵、導航時間獎勵、軌跡平滑獎勵、路點獎勵、到達目標獎勵以及碰撞發生時的懲罰。
6.根據權利要求1所述的一種融合全局訓練的深度強化學習避障導航方法,其特征在于:在所述步驟(3)中,將對機器人的每一步運動做出獎勵或懲罰,包括運動獎勵、導航時間懲罰、軌跡平滑獎勵、路點獎勵、到達目標獎勵和碰撞發生時的懲罰;
A)運動獎勵
增加以下運動獎勵:
其中,表示運動獎勵值,angle表示了機器人的航向角和機器人與臨時目標的方位角之間的差值,Φ(·)表示類余弦函數;
B)導航時間懲罰
當機器人運動軌跡長度大于初始路徑的長度,認為機器人沒有以較優的方式運動,增加以下導航時間懲罰:
if Lcurrent_path>Linit_path
其中,表示導航時間懲罰值,Linit_path為初始路徑的長度,Lcurrent_path為機器人從初始點運動開始的運動軌跡長度;γt為時間調節參數;
C)軌跡平滑獎勵
按照以下公式的設置對角速度的突然大變化增加軌跡平滑獎勵:
if ωt>ωthreshold
其中,表示軌跡平滑獎勵值,ωt表示了t時刻機器人的角速度,γosc為角速度調節參數,ωthreshold為角速度閾值;
D)路點獎勵
按照以下公式設置路點獎勵,當機器人每次到達一個臨時目標時,增加以下路點獎勵:
if|probot-ptemp_goal|<dthreshold
其中,表示路點獎勵值,dthreshold為距離閾值;
E)同時,針對機器人每次導航結束的不同情形,增加機器人區別化的獎勵和懲罰:
當機器人在沿初始路徑運動過程中,會躲避障礙物,機器人根據障礙物的運動狀態做出不同的運動響應,通過傳感器數據實施分析障礙物的運動狀態,進而判斷是否設置獎勵和懲罰:
E.1)2D激光雷達的傳感器圍繞機器人一圈發射激光并返回圓周各個角度的距離信息,根據返回圓周各個角度的距離信息處理獲得機器人周圍環境中各個障礙物相對于機器人的坐標距離;
E.2)在t1時刻,探測獲得各個障礙物相對于機器人的坐標距離,再結合機器人自身的全局坐標,得到t1時刻環境中各個障礙物的全局坐標;
E.3)在t1時刻之后緊鄰的t2時刻,按照步驟相同方式處理獲得t2時刻環境中各個障礙物的全局坐標;
E.4)通過預設的間隔距離閾值,將t1、t2兩個時刻的障礙物進行一一配對,從而得到障礙物的運動信息;
若在t1、t2兩個時刻,障礙物的全局坐標的變化小于預設的移動閾值,則視為障礙物沒有運動,該障礙物為靜態障礙物;
若在t1、t2兩個時刻,障礙物的全局坐標的變化大于預設的移動閾值,且在預設的移動范圍內,則視為障礙物是運動的,該障礙物為動態障礙物;
E.5)實時將機器人與靜態障礙物之間的距離和預設的碰撞距離閾值進行比較,若機器人與靜態障礙物之間的距離小于預設的碰撞距離閾值,則機器人與靜態障礙物間發生碰撞;否則機器人與靜態障礙物間未發生碰撞;
在機器人與靜態障礙物發生碰撞時,本次導航直接結束,機器人不再向目標點運動,并增加一個固定的靜態碰撞懲罰:
其中,表示靜態碰撞懲罰值,Pdatum為設定的靜態碰撞固定懲罰值;
E.6)根據已知t1、t2兩個時刻障礙物的全局坐標的變化處理得到動態障礙物的運動速度和運動方向,實時獲得動態障礙物的位置,將機器人與動態障礙物之間的距離和預設的碰撞距離閾值進行比較:
若機器人與動態障礙物之間的距離小于預設的碰撞距離閾值,則機器人與動態障礙物間發生碰撞;否則機器人與動態障礙物間未發生碰撞;
在機器人與動態障礙物發生碰撞時,根據不同碰撞角度增加動態碰撞懲罰:
Pdynamic=-Pdatum-γdynamic*cos(θobs-θrobot)
其中,Pdynamic表示動態碰撞懲罰值,θobs和θrobot分別為障礙物和機器人的運動方向,γdynamic為提前設定的調節參數;
E.7)機器人已到達目標點,導航結束:若機器人到達目標點,則代表機器人在導航過程中沒有發生任何碰撞,本次導航結束,增加機器人到達目標獎勵。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110049370.4/1.html,轉載請聲明來源鉆瓜專利網。





