[發明專利]基于多Agent環境的深度強化學習算法、設備和存儲介質有效
| 申請號: | 202211114004.3 | 申請日: | 2022-09-14 |
| 公開(公告)號: | CN115392438B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 王旭;周詩佳;張宇;尤天舒;徐勇;富倩;孫偉;李力東;杜麗英;戴傳祗 | 申請(專利權)人: | 吉林建筑大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06N20/00;G06Q10/04 |
| 代理公司: | 重慶三航專利代理事務所(特殊普通合伙) 50307 | 代理人: | 萬文會 |
| 地址: | 130118 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 agent 環境 深度 強化 學習 算法 設備 存儲 介質 | ||
1.一種基于多Agent環境的深度強化學習算法,其特征在于,應用于多Agent環境中的深度強化學習模型,所述深度強化學習算法包括:
步驟S101、利用所述Agent中的目標網絡,基于智能體樣本的初始狀態信息,確定時間差分;所述智能體樣本為獵物智能體和捕食者智能體;所述Agent中的目標網絡用于基于所述智能體樣本,模擬所述獵物智能體和所述捕食者智能體在障礙環境中的競爭路徑或合作路徑;所述Agent中的目標網絡包括目標critic網絡和目標actor網絡;所述時間差分基于當前價值信息以及預設的環境獎懲參數確定;所述當前價值信息基于所述目標critic網絡對所述初始狀態信息和當前策略信息進行評價得到;所述當前策略信息基于所述目標actor網絡對所述初始狀態信息進行預測得到;
步驟S102、根據預設的遮蓋率,對所述初始狀態信息進行隨機遮蓋,得到目標狀態信息;利用所述Agent中的預測網絡,根據所述目標狀態信息、智能體樣本的動作信息以及所述時間差分,確定誤差值;預設的所述遮蓋率基于random函數對所述初始狀態信息隨機遮蓋后,所述Agent中的預測網絡對遮蓋后的初始狀態信息進行預測得到;
步驟S103:基于所述誤差值,以及自適應修改參數,對所述Agent中的預測網絡和所述Agent中的目標網絡各自對應的加權值進行更新;
步驟S104:重復步驟S102和步驟S103至預設次數,確定目標加權值,根據所述目標加權值確定目標深度強化學習模型;所述目標深度強化學習模型用于確定獵物智能體和捕食者智能體在障礙環境下的合作路徑或競爭路徑。
2.根據權利要求1所述的基于多Agent環境的深度強化學習算法,其特征在于,所述Agent中的目標網絡包括目標actor網絡和目標critic網絡;
所述利用所述Agent中的目標網絡,基于智能體樣本的初始狀態信息,確定時間差分,包括:
將所述初始狀態信息輸入至所述目標actor網絡中進行預測,得到當前策略信息;
將所述初始狀態信息和所述當前策略信息輸入至所述目標critic網絡中進行評價,得到對應的當前價值信息;
根據所述當前價值信息以及預設的環境獎懲參數,確定所述時間差分。
3.根據權利要求1所述的基于多Agent環境的深度強化學習算法,其特征在于,所述Agent中的預測網絡包括critic網絡;
所述利用所述Agent中的預測網絡,根據所述目標狀態信息、智能體樣本的動作信息以及所述時間差分,確定誤差值,包括:
將所述目標狀態信息和所述智能體樣本的動作信息輸入至所述critic網絡中進行預測,得到目標價值信息;
根據所述目標價值信息和所述時間差分,確定所述誤差值。
4.根據權利要求3所述的基于多Agent環境的深度強化學習算法,其特征在于,所述Agent中的預測網絡包括actor網絡;
所述基于所述誤差值,以及自適應修改參數,對所述Agent中的預測網絡和所述Agent中的目標網絡各自對應的加權值進行更新,包括:
基于所述誤差值,對所述critic網絡的加權值進行更新;
對所述智能體樣本的動作信息進行抽樣,得到目標動作信息,根據所述目標動作信息對所述actor網絡的加權值進行更新;
根據更新后的actor網絡的加權值和更新后的critic網絡的加權值,以及所述自適應修改參數,對所述目標actor網絡和所述目標critic網絡各自對應的加權值進行更新。
5.根據權利要求4所述的基于多Agent環境的深度強化學習算法,其特征在于,所述根據更新后的critic網絡的加權值和更新后的actor網絡的加權值,以及所述自適應修改參數,對所述目標actor網絡和所述目標critic網絡各自對應的加權值進行更新,包括:
基于預設的自適應加權平均更新模型,確定所述自適應修改參數;
根據所述自適應修改參數,確定網絡更新模型;
根據網絡更新模型,以及所述更新后的critic網絡的加權值和所述更新后的actor網絡的加權值,對所述目標actor網絡和所述目標critic網絡各自對應的加權值進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林建筑大學,未經吉林建筑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211114004.3/1.html,轉載請聲明來源鉆瓜專利網。





