[發明專利]一種基于深度強化學習的多agent協作框架有效
| 申請號: | 201910347694.9 | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN110084375B | 公開(公告)日: | 2021-09-17 |
| 發明(設計)人: | 孫立博;秦文虎;翟金鳳 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/08 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 許小莉 |
| 地址: | 214135 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 agent 協作 框架 | ||
1.一種基于深度強化學習的多agent協作框架,包括agent,billboard,基于actor-critic的深度強化學習模塊以及下一時刻狀態計算模塊,其中:
所述的agent由當前狀態、速度和期望目標定義和描述;
所述的billboard對各agent的狀態序列、當前時間步采取的動作以及各agent下一時刻的狀態進行存儲,并進行相關信息的傳遞,以實現agent之間的信息交互;
所述的基于Actor-Critic的深度強化學習模塊根據當前環境狀態和agent的自身狀態,通過不斷訓練網絡參數,為agent提供最優控制策略;
所述的下一時刻狀態計算模塊根據各agent的當前狀態和采取的動作分別計算各agent下一時刻的狀態;
所述的agent為所述的billboard、所述的基于Actor-Critic的深度強化學習模塊和所述的下一時刻狀態計算模塊提供自身狀態信息,所述的基于Actor-Critic的深度強化學習模塊為所述的billboard和所述的下一時刻狀態計算模塊提供動作信息;所述的billboard為所述的基于Actor-Critic的深度強化學習模塊和所述的下一時刻狀態計算模塊提供所有agent的狀態信息;
所述的agent由當前狀態、速度和期望目標定義,其中:
所述的當前狀態由agent的當前位置和朝向共同表示;
所述的速度定義了agent的運動速率和方向;
所述的期望目標提供了agent的運動目標和方向;
所述的billboard主要負責信息的存儲、更新和傳遞,其中:
billboard存儲的信息包括每個agent固定時間步長的狀態序列、當前時間步采取的動作以及各agent下一時刻的狀態;
billboard在每一時間步對其所存儲的信息進行更新;
billboard在agent、基于Actor-Critic的深度強化學習模塊和下一時刻狀態計算模塊需要時對agent的相關信息進行傳遞;
所述的基于Actor-Critic的深度強化學習模塊包括actor網絡和critic網絡,其中:
所述的actor網絡根據當前環境狀態和agent自身狀態選擇合適動作,并根據critic網絡給出的評價采用策略梯度方法更新其網絡參數,從而獲取最優控制策略;
所述的critic網絡結合各agent固定時間步長的狀態序列,對agent采取的動作做出評價并采用TDerror方法對其網絡參數進行更新直至達到最大步數或損失值小于給定閾值,在計算即時獎勵時,為每個agent定義不同的獎勵函數,以實現多agent間的協作或者競爭,產生多樣的行為;
所述的下一時刻狀態計算模塊負責對各agent下一時刻的狀態進行計算,其通過billboard獲取各agent的當前狀態和采取的動作,計算各agent下一時刻的狀態,并將得到的狀態信息傳遞給billboard。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910347694.9/1.html,轉載請聲明來源鉆瓜專利網。





