[發明專利]基于變異的雙重DQN的快速路徑規劃方法及移動機器人在審
| 申請號: | 201810101910.7 | 申請日: | 2018-02-01 |
| 公開(公告)號: | CN108375379A | 公開(公告)日: | 2018-08-07 |
| 發明(設計)人: | 黃穎;魏國亮;王永雄 | 申請(專利權)人: | 上海理工大學 |
| 主分類號: | G01C21/34 | 分類號: | G01C21/34 |
| 代理公司: | 上海伯瑞杰知識產權代理有限公司 31227 | 代理人: | 胡永宏 |
| 地址: | 200000 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 移動機器人 快速路徑規劃 預測 目標動作 權重參數 損失函數 在線動作 卷積神經網絡 存儲器 方法更新 函數計算 路徑規劃 目標網絡 人本發明 移動機器 預設規則 在線網絡 轉換信息 時間步 自適應 采樣 回放 融合 更新 網絡 | ||
本發明公開一種基于變異的雙重DQN的快速路徑規劃方法及移動機器人,其中移動機器人從經驗回放存儲器中采樣mini?batch個轉換信息,并按照第一預設規則從兩個決斗深度卷積神經網絡中選擇一個作為第一在線網絡,另一個則作為第一目標網絡;獲取預測的在線動作值函數Q(s,a;w)和貪婪動作a′,獲取預測的目標動作值函數的最大值;根據預測的目標動作值函數的最大值和預測的在線動作值函數計算當前時間步上的損失函數;根據損失函數利用自適應時刻估計方法更新在線權重參數w。本發明基于雙Q學習與決斗DQN網絡的不同融合方式,改變了權重參數的更新方式,更為有效的實現了移動機器人的路徑規劃。
技術領域
本發明涉及機器學習與人工智能領域,具體而言,本發明為一種基于變異的雙重DQN的快速路徑規劃方法。
背景技術
移動機器人的路徑規劃是指機器人根據傳感器攝像頭獲得的信息對所處環境進行感知并自主的規劃出一條抵達目標的路線。在實際中,人們一般采用基于諸如蟻群算法等傳統算法的方法進行,但是隨著科學技術的不斷發展,移動機器人面臨的環境越來越復雜多變,傳統的路徑規劃方法已滿足不了移動機器人需求。
針對這種情況,人們提出了深度增強學習(Deep Reinforcement Learning,簡稱,DRL),DRL將深度學習與強化學習進行了融合,其中深度學習主要負責利用神經網絡的感知功能對輸入的環境狀態提取特征,實現環境狀態到狀態動作值函數的擬合;而強化學習則負責根據深度神經網絡的輸出和一定的探索策略完成決策,從而實現狀態到動作的映射,其能夠較好的滿足移動機器人的移動需求,一般都以DRL中經典的DQN算法為基礎進行路徑規劃,但是,DQN算法存在動作值高估現象的缺點。
發明內容
為了尋找更為有效的移動機器人的路徑規劃方案,本發明提供了一種基于變異的雙重DQN的快速路徑規劃方法,該方法包括:
步驟S1:移動機器人從經驗回放存儲器中采樣mini-batch個轉換信息(s,a,r,s′,d),并按照第一預設規則從兩個決斗深度卷積神經網絡中隨機選擇一個作為第一在線網絡,另一個則作為第一目標網絡;
其中,所述mini-batch為每個時間步上用來更新的采樣經驗的個數;
所述s為當前環境狀態;所述s′為與所述環境狀態s對應的后繼狀態;
所述a為所述移動機器人采用ε-貪婪策略確認執行的動作;
所述r為執行所述動作a后環境給予的即時獎勵;所述d是任務結束與否的標志;
步驟S2:根據所述環境狀態s和所述第一在線網絡獲取預測的在線動作值函數Q(s,a;w),所述預測的在線動作值函數Q(s,a;w)為在所述環境狀態s下所有可能動作a的預測動作函數值;根據所述后繼狀態s′和所述第一在線網絡獲取貪婪動作a′,所述貪婪動作a′為所述后繼狀態s′在所述第一在線網絡中預測的動作值函數的最大值maxa′Q(s′,a′,w);所述w為所述第一在線網絡的在線權重參數;
步驟S3:根據所述后繼狀態s′、所述貪婪動作a′以及所述第一目標網絡獲取預測的目標動作值函數的最大值Q(s′,argmaxa′Q(s′,a′,w),w-),所述w-為所述第一目標網絡的目標權重參數;
步驟S4:根據所述預測的目標動作值函數的最大值
Q(s′,argmaxa′Q(s′,a′,w),w-)
和所述預測的在線動作值函數Q(s,a;w)計算當前時間步上的損失函數:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海理工大學,未經上海理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810101910.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鄉村道路中擴展導航方法
- 下一篇:一種運動狀態檢測方法及設備





