[發明專利]基于勢場的強化學習路徑規劃算法在審
| 申請號: | 201911116875.7 | 申請日: | 2019-11-15 |
| 公開(公告)號: | CN110794842A | 公開(公告)日: | 2020-02-14 |
| 發明(設計)人: | 褚明;苗雨;楊茂男;穆新鵬;尚明明 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機器人路徑規劃 勢場 復雜環境條件 可移動障礙物 強化學習算法 系統資源占用 障礙物環境 傳統人工 動態環境 動作函數 仿真環境 復雜環境 環境空間 決策過程 決策能力 路徑規劃 強化學習 智能算法 狀態函數 魯棒性 勢場法 無碰撞 建模 算法 確定性 機器人 場景 獎勵 優化 決策 | ||
1.一種基于勢場的強化學習路徑規劃方法,其特征在于:確定系數的強化學習勢場環境建模方法:設置正比例斥力增益系數β=10,正比例引力增益系數α=0.3,根據環境中的障礙物個數n、位置及運動速度v1,v2,...,vn,,當前時刻下,機器人移動方向為τ,動態障礙物i當前移動方向ρi,在障礙物附近定義確定系數的斥力場模型表達式列在段落結尾;定義目標點位置勢場環境中的引力場模型Ua(P)=0.5αd(P,PG);
2.基于勢場的馬爾科夫決策模型建立方法,其特征在于:關于時刻t,定義機器人在勢場環境中觀測到的狀態函數,為全觀測狀態定義機器人的動作為At=[|fx1|,|fx2|,|fy1|,|fy2|]T,定義過程中的獎勵值rt(St,At)=Ra+Rre,其中Ra=d2(P,PG),
3.建立基于勢場的強化學習算法的神經網絡,其特征在于:建立DDPG強化學習算法中兩個Actor網絡和兩個Critic網絡,皆為三層的感知機神經網絡,參數為θμ和θQ的深度神經網絡表示確定性策略a=π(S|θμ)和動作值函數Q(s,a|θQ),輸入的狀態維度為8,前兩層均有64個神經元,激活函數采用leaky relu函數,輸出的動作維度為4;目標函數定義為其中γ為折扣系數。
4.構建勢場強化學習算法的優化策略,其特征在于:根據勢場作為狀態輸入,確定性策略a=π(s|θμ),得到偏導模型,在段落結尾第一個表達式,通過梯度上升的方向更新策略網絡參數;更新Critic網絡,結合梯度模型,在段落結尾第二個表達式,更新公式為TargetQ=r+γQ′(s′,π(s′|θμ′)|θQ′);神經網絡優化器采用Adam優化器,優化器的參數gamma為0.95,學習率lr為0.01,batch size為512,多回合迭代以訓練網絡,最終實現復雜動態環境的機器人路徑規劃;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911116875.7/1.html,轉載請聲明來源鉆瓜專利網。





