[發明專利]一種基于分布估計和強化學習的無地圖避障導航方法有效
| 申請號: | 202010581591.1 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111707270B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 孫長銀;張成思;王騰;薛磊 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G01C21/20 | 分類號: | G01C21/20 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 羅運紅 |
| 地址: | 210000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布 估計 強化 學習 地圖 導航 方法 | ||
1.一種基于分布估計和強化學習的無地圖避障導航方法,其特征在于,該方法包含以下步驟:
(1)初始化強化學習和分布估計算法參數;
(2)采集得到當前環境下智能體與目標位置距離的位置信息,與障礙物之間的距離信息和速度信息,并對數據進行相應的預處理;
(3)將處理好后的智能體的狀態信息數據送入到學習網絡中輸出智能體的決策動作,根據不同的累積獎勵和適應度函數對不同的智能體進行評價,利用強化學習和分布估計算法對學習網絡進行更新;
(4)判斷是否到達最大訓練次數,如果沒有返回到步驟(2);
步驟(1)中初始化參數的具體方法為:假設決策網絡中參數分布符合多元高斯分布分布估計的初始參數就是參數分布的均值μπ,協方差矩陣Σπ,種群中個體個數,新穎性搜索的數據集A和每代個體被選入數據集的概率p,強化學習的初始化參數為評價網絡Qπ和目標網絡Q′π的參數和經驗回放R;
步驟(2)中狀態信息數據的表示和數據預處理的方法:
(21)智能體的位置信息表示為Std=[dx,dy],即為智能體與目標位置的距離向量;智能體與障礙物的距離信息通過密集的激光雷達束測得,從0到2π之間共測有16個分量表示為智能體的速度信息表示為Sv=[vx,vy];
(22)對數據進行歸一化的預處理方法,將所有的狀態數據轉換到[0,1]的取值范圍內,即
步驟(3)中,獎勵函數、適應度函數的設計以及強化學習和分布估計更新的方式如下:
(31)其中輸出動作空間為智能體的速度控制量,為了獎勵導航任務中的中間過程需要設計一個密集的獎勵函數,獎勵函數被分為五個部分:位置獎勵、速度獎勵、碰撞懲罰、單步懲罰、完成獎勵,即r=rd+rv+rc+rt+rf,位置獎勵表示智能體的前位置與目標位置越近獎勵越大,具體為:
其中,α為常系數,速度獎勵只有當智能體與目標位置在一定距離以內,才會被考慮,此時速度獎勵為:
其中,β為常系數,ζ考慮速度獎勵的距離閾值,當智能體與障礙物之間的位置小于某個閾值時,認為其發生碰撞,同時每步執行時也會有一定時間懲罰,當完成任務的時候會有獎勵,其余獎勵信號具體形式如下:
rt=rstep
其中,rcollision-penalty、rstep和rfinish為設定的常數;
(32)分布估計算法的適應度函數指標設計包括新穎性指標和累積回報指標;
其中,rj為每一步的獎勵,而T表示終端時刻,bc為單個新穎性指標,bi為數據集中距離當前個體最近的k個個體的新穎性指標,新穎性指標為終端時刻的位置與目標地點的距離,即
(33)對在每個回合結束后在導航任務上適應度值小于預設值的部分個體利用深度確實性策略梯度的強化學習算法更新,將更新得到的個體再次送入分布估計算法的種群中,分布估計算法的更新方式如下:得到最后適應度值較高的前K個個體xi,i=1,2,3,…,K;
更新進化計算的分布的均值:
更新參數分布的方差:
其中,I為單位陣,為了簡化計算,假設網絡中參數沒有相互影響,即此時的協方差矩陣為對角陣,為了防止參數過早收斂,在參數的協方差矩陣中引入噪聲系數∈,同時為了算法可以有更好的表現,∈也采用軟更新的模式,即設定一個初值和終值,從初值不斷的衰減到終值即,∈′=τ∈+(1-τ)∈′,τ為軟更新系數,μ為均值。
2.根據權利要求1所述的基于分布估計和強化學習的無地圖避障導航方法,其特征在于步驟(4)中所描述的是否達到最大的訓練次數,如果是,則停止訓練,否則返回步驟(2)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010581591.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:頭盔鎖和頭盔
- 下一篇:一種熱穩定性和水穩定性好的鋼渣瀝青混凝土





