[發明專利]基于深度強化學習DQN的多AGV路徑規劃避障方法在審
| 申請號: | 202310307325.3 | 申請日: | 2023-03-27 |
| 公開(公告)號: | CN116339333A | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 黃巖松;姚錫凡 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 黃月瑩 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 dqn agv 路徑 規劃 方法 | ||
1.一種基于深度強化學習DQN的多AGV路徑規劃避障方法,其特征在于,包括以下步驟:
步驟1、根據激光雷達點云數據構建周圍環境地圖,并將地圖轉換為柵格地圖;柵格地圖的信息包括各AGV的位置、障礙物的尺寸;
步驟2、根據柵格地圖信息構建AGV的觀察矩陣和狀態向量,觀察矩陣記錄AGV周圍是否存在其他AGV且其他AGV的運行方向;狀態向量包括包含以下三個部分:終點位置、AGV當前位置與終點的關系、周圍環境信息;
步驟3、基于深度強化學習算法和AGV的狀態向量構建針對單AGV的多起點多終點路徑規劃模型;
步驟4、將步驟3構建的模型應用在環境中所有AGV上,計算出每個AGV在不考慮其他AGV的情況下的預動作,依據AGV觀測范圍內其他AGV的預動作得到觀測矩陣,利用觀測矩陣對模型結果進行修正,以避免AGV之間的碰撞。
2.如權利要求1所述的一種基于深度強化學習DQN的多AGV路徑規劃避障方法,其特征在于,步驟2中,對AGV當前位置和終點的關系采取相對位置的方式表示,AGV位置相對終點位置的方向,包括上、左上、左、左下、下、右下、右、右上8個方向,分別表示為(-1,0),(-1,-1),(0,-1),(1,-1),(1,0),(1,1),(0,1),(-1,1)。
3.如權利要求1所述的一種基于深度強化學習DQN的多AGV路徑規劃避障方法,其特征在于,步驟2中,對AGV周圍一格內環境的編碼方式為:根據AGV按順序執行動作空間{不動,上,左上,左,左下,下,右下,右,右上}中對應動作得到的柵格位置和環境屬性編碼并將周圍環境信息加入狀態向量中。
4.如權利要求1所述的一種基于深度強化學習DQN的多AGV路徑規劃避障方法,其特征在于,針對單AGV的多起點多終點路徑規劃模型,設定AGV在柵格地圖中的運行方式,包括:AGV能向周圍八個方向運行,同時能選擇停留動作保持位置不變,即AGV的動作空間為{不動,上,左上,左,左下,下,右下,右,右上},用數字表示為{0,1,2,3,4,5,6,7,8};使用∈貪心策略選擇動作:
式中∈∈[0,1]表示策略的隨機性量,即動作從隨機動作和貪婪動作之間選擇的概率;c表示隨機生成的大于0小于1的小數,當生成的c大于隨機性量時,選擇貪婪動作,反之則選擇隨機動作;表示貪婪動作,即依據DQN訓練出的Q值網絡Q(s,a,θ)根據狀態s選擇當前的最優動作a,其中θ表示Q值網絡的網絡參數。
5.如權利要求1所述的一種基于深度強化學習DQN的多AGV路徑規劃避障方法,其特征在于,所述深度強化學習算法為DQN算法,通過收集AGV與虛擬環境的交互數據,包括AGV狀態、AGV動作和環境的反饋獎勵,對DQN模型算法進行訓練,得到DQN模型即單AGV的多起點多終點路徑規劃模型,對AGV與環境的交互,學習適用于AGV的最優運行策略。
6.如權利要求5所述的一種基于深度強化學習DQN的多AGV路徑規劃避障方法,其特征在于,對AGV在環境中與環境交互的獎勵函數設定為:
R=r1+r2+r3+r4
式中r1表示因AGV運行超出邊界或撞上障礙物的懲罰;r2表示斜向動作的移動距離平衡懲罰;r3表示啟發式獎勵,通過計算AGV與終點間的曼哈頓距離并與運行前的距離進行比較,給予相應的獎勵;r4表示AGV到達終點的獎勵,pA=(xA,yA)表示當前位置,xA、yA表示具體的橫縱坐標,p′A=(x′A,y′A)則表示前一時刻的位置;pG=(xG,yG)表示終點位置,下標G代表終點,a表示AGV執行的動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310307325.3/1.html,轉載請聲明來源鉆瓜專利網。





