[發明專利]一種改進的Dyna-Q學習路徑規劃算法在審
| 申請號: | 202110278598.0 | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN112964272A | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 石振;王保華;王科銀;張建輝 | 申請(專利權)人: | 湖北汽車工業學院 |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34 |
| 代理公司: | 濟南泉城專利商標事務所 37218 | 代理人: | 張貴賓 |
| 地址: | 442002 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 dyna 學習 路徑 規劃 算法 | ||
1.一種改進的Dyna-Q學習路徑規劃算法,其特征在于:包括以下步驟:
S1.輸入環境信息:起始位置和目標位置;
S2.設置參數ɑ、γ、ε、ζ,初始化模型M(s,a);
S3.初始化Q表;
S4.循環;
S5.初始化狀態S;
S6.采用ε-貪婪策略選擇動作A;
S7.執行所選動作到達下一狀態S’并獲得相應獎勵R;
S8.更新Q值;
S9.用R和S’更新模型M(s,a);
S10.n次模擬;
S11.每次模擬都隨機選擇一個之前出現過的狀態S以及該狀態下的動作A;
S12.基于模型M(S,A)得到獎勵R和下一狀態S’;
S 13.再次更新Q值;
S14.達到一定步數或一定收斂條件,終止;
其中,S代表環境狀態;A代表智能體所采取的動作;R代表智能體在狀態S采取動作A所獲得的獎勵。
2.根據權利要求1所述的改進的Dyna-Q學習路徑規劃算法,其特征在于:步驟S1具體過程如下:對移動機器人獲得的環境圖像進行分割處理,將圖像分割成20×20的柵格,采用柵格法建立環境模型,如果在格柵中發現障礙物,則定義該柵格為障礙物位置,機器人不能經過;如果格柵中發現目標點,則定于該格柵為目標位置,為移動機器人最終要到達的位置;其他的柵格定義為無障礙物的柵格,機器人可以經過。
3.根據權利要求1所述的引入人工勢場的強化學習路徑規劃方法,其特征在于:步驟S2中,α為學習率,用于迭代收斂,γ為折扣因子,決定了同一迭代周期內未來獎勵的重要程度;ε是介于0-1之間的貪婪度,每次智能體以ε的概率對環境進行探索,以1-ε的概率選擇具有最大狀態動作值的動作;ζ是大于0的尺度因子。
4.根據權利要求1所述的引入人工勢場的強化學習路徑規劃方法,其特征在于:步驟S3中通過狀態價值函數和狀態值函數之間的關系公式(1)來初始化Q值
(1)
其中,P(s,|s,a)為從當前狀態s和動作a確定的情況下轉移到狀態s,的概率;
采用公式2改進的引力場函數對除目標位置以外的狀態值進行初始化,
(2)
其中,ζ是大于0的尺度因子,為當前位置與目標位置的距離。
5.根據權利要求1所述的引入人工勢場的強化學習路徑規劃方法,其特征在于:
步驟S8和步驟S13中, 采用公式3初始化Q值
(3)
其中,為t時刻的狀態動作值,為t時刻獲得的獎勵值,為t+1時刻采取動作a狀態動作值。
6.根據權利要求3所述的引入人工勢場的強化學習路徑規劃方法,其特征在于:學習率ɑ為0.01、折扣因子γ為0.9、貪婪因子ε為0.2。
7.根據權利要求1所述的引入人工勢場的強化學習路徑規劃方法,其特征在于:步驟S14中最大運行幕數設置為100。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北汽車工業學院,未經湖北汽車工業學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110278598.0/1.html,轉載請聲明來源鉆瓜專利網。





