[發明專利]一種基于DDGPES的機器人控制方法在審

申請號：	201911351334.2	申請日：	2019-12-24
公開（公告）號：	CN110919659A	公開（公告）日：	2020-03-27
發明（設計）人：	王紅濱;原明旗;何鳴;張耘;周連科;王念濱;張毅	申請（專利權）人：	哈爾濱工程大學
主分類號：	B25J9/16	分類號：	B25J9/16
代理公司：	哈爾濱市松花江專利商標事務所 23109	代理人：	時起磊
地址：	150001 黑龍江***	國省代碼：	黑龍江;23
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 ddgpes 機器人控制方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

一種基于DDGPES的機器人控制方法，涉及一種機器人的控制方法，屬于控制領域。本發明是為了解決現有的機器人控制方法中存在策略參數調整和均勻采樣“無效”動作問題，以及Agent容易陷入局部最優的問題。本發明將機器人的控制決策系統記為智能體Agent；針對Agent，利用DQN網絡進行決策，進而實現機器人進行控制。DQN網絡應用中，結合DDES策略和GPES策略，GPES策略通過計算difference的值，根據Agent學習的過程動態的調整ε?greedy策略中的ε參數，以1?ε的概率執行argmax_a∈A Q(s,a_i)動作，Agent以ε的概率進行探索。同時，采用DDES探索利用策略確定損失函數L_D＝L?E_{π′∈Π′}[αD(π,π′)]。主要用于機器人的控制。

技術領域

本發明涉及一種機器人的控制方法，屬于控制領域。

背景技術

隨著計算機圖形技術、網絡技術和人機交互技術的發展，視頻游戲的研究也進入到了一個全新的階段。近年來，DRL(Deep Reinforcement Learning)在機器人導航、指揮決策、視頻游戲等多個應用領域受到關注。隨著機器人技術的發展，將DRL應用于機器人(或智能體Agent)的控制也取得了一定的成果，但是將DRL應用于于機器人時，現有的基于深度學習的控制中，深度強化學習在選擇何種行動策略時，不可避免地會遇到強化學習的難點之一，即探索與利用的平衡策略。目前主流深度強化學習算法中用于解決此問題的方法ε-greedy策略，因實現簡單，可以在一定程度上平衡探索利用的問題而被廣泛使用。

ε-greedy策略具體如下所示：

其中rand是隨機數。ε-greedy策略的原理是：按概率1-ε選取Q值中最大的動作并執行。然而，在這些等概率的動作中往往存在“壞”動作，即：有些動作對算法的訓練是無效的甚至延緩算法的收斂，會增加Agent到達目標點的代價的問題。同時，ε值在訓練初期接近1，同時隨著Agent不斷探索對環境不斷學習，ε值需要不斷手動設置減小，對于動態的學習過程，不能實時的根據Agent的學習過程調整ε的值，其探索與利用問題仍然存在，在一定程度上將會影響算法的學習速率和效率。

同時，對于欺騙性的局部最優值或稀疏獎勵信號的復雜環境，探索仍然是一個主要的挑戰。在具有欺騙性報酬的環境中，代理可能陷入局部最優，并且永遠不會發現其他策略來尋找更大的報酬。例如，在MuJoCo的HalfCheetah中，agent很快學會了翻轉，然后“搖擺”前進，這是次優策略。此外，只有稀疏獎勵的環境提供的訓練信號很少，使得agent很難發現可行的策略。

發明內容

本發明是為了解決現有的機器人控制方法中存在策略參數調整和均勻采樣“無效”動作問題，以及Agent容易陷入局部最優的問題。

一種基于DDGPES的機器人控制方法，具體包括以下步驟：

將機器人的控制決策系統記為智能體Agent；

針對Agent，利用DQN網絡進行決策，進而實現機器人進行控制；

DQN網絡中，采用DDES探索利用策略確定損失函數L_D：

L_D＝L-E_{π′∈Π′}[αD(π,π′)]

其中，L表示為DRL算法中用于更新當前策略網絡的損失函數；π是Agent當前的策略，π′是有限策略集合Π′的一個樣本，D(π,π′)是π和π′之間的度量距離，α是D的比例因子，E[·]表示期望，E_{π′∈Π′}[·]表示π′∈Π′條件下對應的E[·]；

在利用DQN網絡進行決策時，使用波爾茲曼策略選擇行動，包括以下步驟：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學，未經哈爾濱工程大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】