[發明專利]一種基于強化學習的AGV路徑規劃方法及系統有效
| 申請號: | 202110963677.5 | 申請日: | 2021-08-20 |
| 公開(公告)號: | CN113485380B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 吳宗澤;郭海森;任志剛;賴家倫;王界兵 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510090 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 agv 路徑 規劃 方法 系統 | ||
1.一種基于強化學習的AGV路徑規劃方法,其特征在于,所述方法至少包括:
S1.構建AGV動力學模型,設置前向差分更新步長,基于前向差分更新步長及AGV動力學模型確定AGV的基本狀態更新表達式;
S2.以AGV為智能體,AGV行駛所感知到的環境信息為狀態信息,考慮目的地位置、障礙物位置設計狀態空間,以及設計連續性動作空間、多重獎勵機制;
步驟S2所述的考慮目的地位置、障礙物位置設計的狀態空間包括:
a.AGV當前的位置信息:
其中,spos表示AGV當前的位置信息;M矩陣是角度矩陣,代表AGV與目的地位置間的方位角θ的聯系;(xg,yg)為目的地的位置坐標,(xr,yr)為當前AGV的位置坐標;
b.AGV到障礙物的位置信息:
其中,sobs_i表示環境中的障礙物信息;(xobs_i,yobs_i)表示第i個障礙物的中心點位置,是AVG自運動始已觀察到的狀態;(xr,yr)表示當前AGV的位置;
c.AGV到障礙物間的距離信息:
其中,Disi表示AGV位置與第i個障礙物的中心點的距離,(xr,yr)表示當前AGV的位置,(xobs_i,yobs_i)表示當前第i個障礙物中心點的位置;狀態空間表示為:
state=[spos,sobs_i,Disi],i∈(1,N);
其中,N表示隨機障礙物的個數上限;
步驟S2所述的連續性動作空間表示為:
action=[α,w]
其中,α表示AGV的連續性動作加速度向量,w為角速度向量,兩者代表AVG小車的實時運動信息;
多重獎勵機制包括:行駛主線獎勵、若干個輔助獎勵及時間獎勵,具體為:
其中,RGoal表示終點回報獎勵,為行駛主線獎勵,Wg表示終點回報獎勵的權重值,終點回報獎勵滿足:RGoal=1;Rdistance表示距離回報獎勵,Wdis表示距離回報獎勵的權重值,距離回報獎勵滿足:
τt為微分量也即差分時長,代表AGV每次移動的步距;dlast為記錄前一時刻AGV距終點的距離;dcurr為當前時刻AGV距終點的距離,Time為所花費的步數;為第i個障礙物的大小閾值;Rdirection表示方向回報獎勵,Wdir表示方向回報獎勵的權重值,滿足:
Rdirection=π-2θ′,θ′=min(2|θ|,π)
Rout表示出界回報獎勵,Wout表示出界回報獎勵的權重值,滿足:Rout=10;Robstacle表示碰撞回報獎勵,滿足:
其中,Wobs表示碰撞回報獎勵的權重值;
S3.根據AGV動力學模型及AGV的基本狀態更新表達式,結合狀態空間、連續性動作空間及多重獎勵機制,完成AGV路徑規劃的馬爾科夫過程建模;
S4.引入Actor-Critic框架,基于狀態空間、連續性動作空間及多重獎勵機制,智能體與環境交互,以最大化獎勵及最大化策略熵為目標,進行策略學習訓練,使得智能體在訓練的過程中朝著最優的獎勵方向運動;
S5.當訓練收斂時,得到智能體AGV的每步決策動作,進而得到最優的AGV規劃路徑。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110963677.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效隧道作業橋
- 下一篇:一種杠桿式磁控吸盤擦窗器基座





