[發明專利]一種協作多智能體強化學習方法在審
| 申請號: | 202011267908.0 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112364984A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 譚曉陽;姚興虎 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 210016 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 協作 智能 強化 學習方法 | ||
1.一種協作多智能體強化學習方法,其特征在于,包括如下步驟:
(1)采集每個智能體的觀測信息和環境的全局狀態;
(2)將步驟(1)中采集的每個智能體的觀測信息傳入值函數網絡,經過值函數網絡的計算得到智能體所有狀態動作值;
(3)根據步驟(2)中得到的每個智能體的狀態動作值,采用∈貪心算法進行單個智能體的策略選擇;
(4)將每個智能體所采取的動作的狀態動作值和全局狀態傳入獎勵高速路網絡;
(5)獎勵高速路網絡進行信息融合并輸出聯合的狀態動作值;
(6)利用環境給出的獎勵信號進行梯度的反向傳播并更新神經網絡的參數;
(7)訓練完成后得到每個智能體的策略模型,并利用該模型進行多智能體決策。
2.根據權利要求1所述的一種協作多智能體強化學習方法,其特征在于:所述步驟(2)中經過值函數網絡的計算得到智能體所有狀態動作值的具體步驟如下:
(2.1)將所述步驟(1)中采集到的每個智能體的觀測信息傳入一層全連接網絡進行特征變換,將所有智能體的觀測信息變換為同一維度;
(2.2)針對每個智能體,將經過變換的特征傳入門控循環單元即Gate RecurrentUnit,GRU,并與歷史信息進行融合得到融合后的特征;
(2.3)針對每個智能體,將特征τ傳入連接網絡輸出當前智能體所有可能動作的“狀態-動作值”。
3.根據權利要求1所述的一種協作多智能體強化學習方法,其特征在于:所述步驟(3)中采用∈貪心算法進行單個智能體的策略選擇的具體步驟如下:
(3.1)按照均勻分布的方式隨機生成區間[0,1]之間的隨機數a;
(3.2)若隨機數a大于等于給定的常數∈,則選取具有最大“狀態-動作值”的動作;
(3.3)若隨機數a小于給定的常數∈,則在智能體的動作空間中隨機選擇一個動作。
4.根據權利要求1所述的一種協作多智能體強化學習方法,其特征在于:所述步驟(5)中獎勵高速路網絡進行信息融合并輸出聯合的狀態動作值的具體步驟如下:
(5.1)全局狀態作為超網絡的輸入,生成全連接網絡的權重;
(5.2)所有智能體的動作值經過超網絡進行前向傳播,得到聯合的動作值,作為網絡的第一個輸出
(5.3)每個智能體的動作值直接與全局信號建立連接,作為網絡的第二個輸出Qi。
5.根據權利要求1所述的一種協作多智能體強化學習方法,其特征在于:所述步驟(6)中利用環境給出的獎勵信號進行梯度的反向傳播并更新神經網絡的參數的具體步驟如下:
(6.1)獲取獎勵高速路網絡的聯合動作值輸出和每個智能體的動作值和每個智能體的動作值Qi;
(6.2)利用全局獎勵信號R,構建優化損失函數
其中Nb為訓練批量的大小,λ為超參數,整個網絡的參數分為θ和φ兩部分,其中θ為所有智能體非中心化的值函數網絡的參數,φ為獎勵高速路網絡的參數,為當前數據所對應的時間更新目標式;
(6.3)采用基于梯度下降的優化方法最小化上述損失函數,并更新神經網絡的參數。
6.根據權利要求5所述的一種協作多智能體強化學習方法,其特征在于:所述步驟(6.2)中時間更新目標式的具體計算過程為:其中γ是獎勵折扣因子,θ-,φ-是與標準的深度Q學習算法中相同的目標網絡即target network的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011267908.0/1.html,轉載請聲明來源鉆瓜專利網。





