[發明專利]基于變異的雙重DQN的快速路徑規劃方法及移動機器人在審
| 申請號: | 201810101910.7 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108375379A | 公開(公告)日: | 2018-08-07 |
| 發明(設計)人: | 黃穎;魏國亮;王永雄 | 申請(專利權)人: | 上海理工大學 |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34 |
| 代理公司: | 上海伯瑞杰知識產權代理有限公司 31227 | 代理人: | 胡永宏 |
| 地址: | 200000 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 移動機器人 快速路徑規劃 預測 目標動作 權重參數 損失函數 在線動作 卷積神經網絡 存儲器 方法更新 函數計算 路徑規劃 目標網絡 人本發明 移動機器 預設規則 在線網絡 轉換信息 時間步 自適應 采樣 回放 融合 更新 網絡 | ||
1.一種基于變異的雙重DQN的快速路徑規劃方法,其特征在于,該基于變異的雙重DQN的快速路徑規劃方法包括:
步驟S1:移動機器人從經驗回放存儲器中采樣mini-batch個轉換信息(s,a,r,s′,d),并按照第一預設規則從兩個決斗深度卷積神經網絡中隨機選擇一個作為第一在線網絡,另一個則作為第一目標網絡;
其中,所述mini-batch為每個時間步上用來更新的采樣經驗的個數;
所述s為當前的環境狀態;所述s′為與所述環境狀態s對應的后繼狀態;
所述a為所述移動機器人采用ε-貪婪策略確認執行的動作;
所述r為執行所述動作a后環境給予的即時獎勵;所述d是任務結束與否的標志;
步驟S2:根據所述環境狀態s和所述第一在線網絡獲取預測的在線動作值函數Q(s,a;w),所述預測的在線動作值函數Q(s,a;w)為在所述環境狀態s下所有可能動作a的預測動作函數值;根據所述后繼狀態s′和所述第一在線網絡獲取貪婪動作a′,所述貪婪動作a′為所述后繼狀態s′在所述第一在線網絡中預測的動作值函數的最大值maxa′Q(s′,a′,w);所述w為所述第一在線網絡的在線權重參數;
步驟S3:根據所述后繼狀態s′、所述貪婪動作a′以及所述第一目標網絡獲取預測的目標動作值函數的最大值Q(s′,argmaxa′Q(s′,a′,w),w-),所述w-為所述第一目標網絡的目標權重參數;
步驟S4:根據所述預測的目標動作值函數的最大值
Q(s′,argmaxa′Q(s′,a′,w),w-)
和所述預測的在線動作值函數Q(s,a;w)計算當前時間步上的損失函數:
所述γ為折扣因子,所述為求所述采樣的mini-batch個轉換信息中轉換信息(s,a,r,s′,d)的更新誤差的期望值;
步驟S5:根據所述損失函數利用自適應時刻估計方法更新所述第一在線網絡的在線權重參數w。
2.如權利要求1所述的基于變異的雙重DQN的快速路徑規劃方法,其特征在于,所述第一預設規則為從兩個初始權重參數相同的決斗深度卷積神經網絡中隨機選擇一個作為第一在線網絡,則另一個為第一目標網絡。
3.如權利要求1所述的基于變異的雙重DQN的快速路徑規劃方法,其特征在于,所述步驟S1之前包括如下步驟:
移動機器人根據所處的位置信息和SLAM重構的環境地圖生成環境狀態s;
通過環境狀態s、后繼狀態s′以及帶決斗結構的深度卷積神經網絡生成轉換信息,并存儲在經驗回放存儲器中。
4.如權利要求3所述的基于變異的雙重DQN的快速路徑規劃方法,其特征在于,所述通過環境狀態s、后繼狀態s′以及帶決斗結構的深度卷積神經網絡生成轉換信息,并存儲在經驗回放存儲器中包括如下步驟:
步驟P1:從符合第二預設規則的兩個帶決斗結構的深度卷積神經網絡中隨機選擇一個作為第二在線網絡,則另一個作為第二目標網絡,將當前的環境狀態s同時輸入到所述第二在線網絡、第二目標網絡;
步驟P2:根據ε-貪婪策略確定動作a并執行;
步驟P3:接收環境反饋回來的即時獎勵r,同時獲得環境在執行動作a后轉換到的后繼狀態s′,從而得到轉換信息(s,a,r,s′,d);
步驟P4:重復步驟P1、步驟P2以及步驟P3,并在每個時間上將采集到的轉換信息存儲到經驗回放存儲器中。
5.如權利要求4所述的基于變異的雙重DQN的快速路徑規劃方法,其特征在于,所述第二預設規則為兩個帶決斗結構的深度卷積神經網絡的權重參數呈標準正態分布N(0,1)或者區間[0,1]內的均勻分布U(0,1)。
6.如權利要求4所述的基于變異的雙重DQN的快速路徑規劃方法,其特征在于,所述步驟P2包括:
以概率ε隨機選擇一個動作a或者以概率1-ε根據所述兩個帶決斗結構的深度卷積神經網絡的輸出Q值的平均值選擇最大Q函數值對應的貪婪動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海理工大學,未經上海理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810101910.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鄉村道路中擴展導航方法
- 下一篇:一種運動狀態檢測方法及設備





