[發明專利]一種基于狀態動態感知的多智能體合作學習方法有效
| 申請號: | 201910162280.9 | 申請日: | 2019-03-05 |
| 公開(公告)號: | CN109978176B | 公開(公告)日: | 2021-01-19 |
| 發明(設計)人: | 王桂鴻;史景倫;鄧麗;張宇 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 狀態 動態 感知 智能 合作 學習方法 | ||
1.一種基于狀態動態感知的多智能體合作學習方法,其特征在于,所述的多智能體合作學習方法包括以下步驟:
S1、對各個智能體分別進行狀態編碼,使每一個智能體形成具有動態長度的狀態集合;其中,所述的狀態編碼是對系統中單一實體的狀態進行離散化或one-hot編碼操作,形成其狀態向量,包含有n個智能體的系統中,在某一個時間步t,對于智能體i,所述的狀態集合由當前選擇的智能體狀態環境狀態及其它智能體狀態三部分組成,即各部分含義如下:
1)智能體狀態向量由智能體i在時間步t的狀態經過狀態編碼后形成的狀態向量;
2)環境狀態由該智能體i在時間步t感知到的m個環境實體經過狀態編碼后,將狀態向量拼接組成矩陣此處環境實體指在系統中無法控制的實體,指智能體i在時間步t感知范圍內的第k個環境實體的狀態向量;
3)其它智能體狀態由該智能體i感知到的l個其它智能體經過狀態編碼后,將狀態向量拼接組成矩陣此處其它智能體指在系統中受控制的實體,指智能體i在時間步t感知范圍內的第k個其它智能體的狀態向量;
S2、對每個智能體,構建一個動態感知層對其狀態集合進行處理,將動態長度的狀態集合映射成為固定長度的特征;
S3、每個智能體的特征輸入到各自帶有通信單元的Q值網絡,從Q值網絡輸出中選取具有最大Q值的動作作為決策動作;
S4、各智能體將動作執行于環境,從環境中獲取反饋獎勵后,對所有智能體的動態感知層參數和Q值網絡參數進行更新;
S5、使用上述框架訓練多智能體,從而獲得具有完成既定任務目標的多智能體合作控制系統。
2.根據權利要求1所述的一種基于狀態動態感知的多智能體合作學習方法,其特征在于,所述的環境狀態的長度m和所述的其它智能體狀態的長度l隨著智能體i時空的變化發生變化。
3.根據權利要求1所述的一種基于狀態動態感知的多智能體合作學習方法,其特征在于,
所述的步驟S2中為每一個智能體構建一個動態感知層,所有智能體動態感知層的參數共享,所述的動態感知層包括k個感知核,每個感知核包含映射單元和注意力單元,對于智能體i,在時間步t,每個感知核對狀態集合的處理過程分解為以下步驟:
S21、使用映射單元的權值矩陣與輸入的狀態進行以下計算:
其中,Wφe和Wφo是映射單元中分別處理和的可學習權值矩陣;
S22、使用注意力單元的權值矩陣與輸入的狀態進行以下計算:
其中,Wαe和Wαo是注意力單元中分別處理和的可學習權值矩陣,得到的輸出權值和其維度分別與和相同;
S23、結合映射單元和注意力單元的輸出結果,計算該感知核處理的最終結果:
狀態集合經過每個感知核后都會輸出一個和一個再將所有感知核的兩個輸出分別進行拼接,從而得到兩個k維的向量,分別為環境狀態的映射向量以及其它智能體狀態的映射向量是智能體自身的映射向量,Wg是對進行映射的可學習權值矩陣,最后將這三個向量進行拼接操作,得到智能體i后續網絡的輸入特征向量
4.根據權利要求1所述的一種基于狀態動態感知的多智能體合作學習方法,其特征在于,每個智能體的Q值網絡參數共享,并且所述的Q值網絡由三層構成,其中,第一、三層為全連接層,第二層是雙向GRU組成的通信層,在時間步t,各智能體的輸入特征向量在經過第一層全連接層處理后,按編號順序依次經過雙向GRU進行信息交換后,再各自經過第三層的全連接層,輸出所有動作的Q值,從中選取Q值最大的動作作為最后的決策動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910162280.9/1.html,轉載請聲明來源鉆瓜專利網。





