[發明專利]基于變異的雙重DQN的快速路徑規劃方法及移動機器人在審

申請號：	201810101910.7	申請日：	2018-02-01
公開（公告）號：	CN108375379A	公開（公告）日：	2018-08-07
發明（設計）人：	黃穎;魏國亮;王永雄	申請（專利權）人：	上海理工大學
主分類號：	G01C21/34	分類號：	G01C21/34
代理公司：	上海伯瑞杰知識產權代理有限公司 31227	代理人：	胡永宏
地址：	200000 ***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	移動機器人快速路徑規劃預測目標動作權重參數損失函數在線動作卷積神經網絡存儲器方法更新函數計算路徑規劃目標網絡人本發明移動機器預設規則在線網絡轉換信息時間步自適應采樣回放融合更新網絡
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于變異的雙重DQN的快速路徑規劃方法，其特征在于，該基于變異的雙重DQN的快速路徑規劃方法包括：

步驟S1：移動機器人從經驗回放存儲器中采樣mini-batch個轉換信息(s,a,r,s′,d)，并按照第一預設規則從兩個決斗深度卷積神經網絡中隨機選擇一個作為第一在線網絡，另一個則作為第一目標網絡；

其中，所述mini-batch為每個時間步上用來更新的采樣經驗的個數；

所述s為當前的環境狀態；所述s′為與所述環境狀態s對應的后繼狀態；

所述a為所述移動機器人采用ε-貪婪策略確認執行的動作；

所述r為執行所述動作a后環境給予的即時獎勵；所述d是任務結束與否的標志；

步驟S2：根據所述環境狀態s和所述第一在線網絡獲取預測的在線動作值函數Q(s,a；w)，所述預測的在線動作值函數Q(s,a；w)為在所述環境狀態s下所有可能動作a的預測動作函數值；根據所述后繼狀態s′和所述第一在線網絡獲取貪婪動作a′，所述貪婪動作a′為所述后繼狀態s′在所述第一在線網絡中預測的動作值函數的最大值max_a′Q(s′,a′,w)；所述w為所述第一在線網絡的在線權重參數；

步驟S3：根據所述后繼狀態s′、所述貪婪動作a′以及所述第一目標網絡獲取預測的目標動作值函數的最大值Q(s′,argmax_a′Q(s′,a′,w),w^-)，所述w^-為所述第一目標網絡的目標權重參數；

步驟S4：根據所述預測的目標動作值函數的最大值

Q(s′,argmax_a′Q(s′,a′,w),w^-)

和所述預測的在線動作值函數Q(s,a；w)計算當前時間步上的損失函數：

所述γ為折扣因子，所述為求所述采樣的mini-batch個轉換信息中轉換信息(s,a,r,s′,d)的更新誤差的期望值；

步驟S5：根據所述損失函數利用自適應時刻估計方法更新所述第一在線網絡的在線權重參數w。

2.如權利要求1所述的基于變異的雙重DQN的快速路徑規劃方法，其特征在于，所述第一預設規則為從兩個初始權重參數相同的決斗深度卷積神經網絡中隨機選擇一個作為第一在線網絡，則另一個為第一目標網絡。

3.如權利要求1所述的基于變異的雙重DQN的快速路徑規劃方法，其特征在于，所述步驟S1之前包括如下步驟：

移動機器人根據所處的位置信息和SLAM重構的環境地圖生成環境狀態s；

通過環境狀態s、后繼狀態s′以及帶決斗結構的深度卷積神經網絡生成轉換信息，并存儲在經驗回放存儲器中。

4.如權利要求3所述的基于變異的雙重DQN的快速路徑規劃方法，其特征在于，所述通過環境狀態s、后繼狀態s′以及帶決斗結構的深度卷積神經網絡生成轉換信息，并存儲在經驗回放存儲器中包括如下步驟：

步驟P1：從符合第二預設規則的兩個帶決斗結構的深度卷積神經網絡中隨機選擇一個作為第二在線網絡，則另一個作為第二目標網絡，將當前的環境狀態s同時輸入到所述第二在線網絡、第二目標網絡；

步驟P2：根據ε-貪婪策略確定動作a并執行；

步驟P3：接收環境反饋回來的即時獎勵r，同時獲得環境在執行動作a后轉換到的后繼狀態s′，從而得到轉換信息(s,a,r,s′,d)；

步驟P4：重復步驟P1、步驟P2以及步驟P3，并在每個時間上將采集到的轉換信息存儲到經驗回放存儲器中。

5.如權利要求4所述的基于變異的雙重DQN的快速路徑規劃方法，其特征在于，所述第二預設規則為兩個帶決斗結構的深度卷積神經網絡的權重參數呈標準正態分布N(0，1)或者區間[0,1]內的均勻分布U(0，1)。

6.如權利要求4所述的基于變異的雙重DQN的快速路徑規劃方法，其特征在于，所述步驟P2包括：

以概率ε隨機選擇一個動作a或者以概率1-ε根據所述兩個帶決斗結構的深度卷積神經網絡的輸出Q值的平均值選擇最大Q函數值對應的貪婪動作。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海理工大學，未經上海理工大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810101910.7/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G01 測量；測試
G01C 測量距離、水準或者方位；勘測；導航；陀螺儀；攝影測量學或視頻測量學
G01C21-00 導航；不包含在G01C 1/00至G01C 19/00組中的導航儀器
G01C21-02 .應用天文學的方法
G01C21-04 .應用陸地測量法
G01C21-10 .通過速度或加速度的測量
G01C21-20 .執行導航計算的儀器
G01C21-24 .專用于宇宙航行的導航

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】