[發明專利]多智能體協作信息處理方法、系統、存儲介質、智能終端在審
| 申請號: | 202010211670.3 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN111582469A | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 鄒長杰;鄭皎凌;張中雷 | 申請(專利權)人: | 成都信息工程大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/02;G06N20/00 |
| 代理公司: | 北京元本知識產權代理事務所(普通合伙) 11308 | 代理人: | 王紅霞 |
| 地址: | 610225 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 智能 體協 信息處理 方法 系統 存儲 介質 終端 | ||
1.一種多智能體協作信息處理方法,其特征在于,所述多智能體協作信息處理方法包括以下步驟:
第一步,每個agent在環境中每采取下一步行為在環境中留下自己的信息微量,當其它agent到達環境中這個狀態時會先搜索周圍的信息微量,把信息微量加入到神經網絡中進行訓練;
第二步,分組模型找到多智能體之間更好的合作策略,分組模型使用RNN網絡設計出多智能體之間的分組關系,稱為G模型,并且通過G模型能夠預測出多智能體在下一時刻的最優分組;
第三步,在每次經過G模型訓練一回合結束時,把每個agent的損失函數公式看作適應度,統計每一回合智能體軌跡的損失值均值,匯總每一回合所有agent軌跡的損失值。
2.如權利要求1所述的多智能體協作信息處理方法,其特征在于,所述第一步每個agent在環境中每采取下一步行為在環境中留下自己的信息微量,當其它agent到達環境中這個狀態時會先搜索周圍的信息微量,把信息微量加入到神經網絡中進行訓練具體包括:智能體agenti的信息微量Xi,信息微量用x表示,X=Rn×n到其中n×n表示環境大小;
x′i=xi+Δs;
Agenti每到達下一個狀態都會更新信息微量表中對應狀態的數量值,Δs表示agenti到達對應狀態記為1,否則記為0;所有agent信息微量匯總方式如下:
xall=λ1x1+λ2x2+…+λnxn;
λi是xi的權重,如果agenti在一回合內完成目標,那么信息微量xi就是正反饋λi=1,反之λi=-1;每回合結束后環境中的信息微量匯總xall,對匯總表xall的信息微量進行歸一化,
兩個智能體agent1和agent2,x1和x2過程如下:
x1+x2=xall;
得到xall后對其歸一化,當agenti到達xall中某一狀態是獲取周圍4個方向的信息微量數值,放到actor中訓練,在訓練過程中agenti利用這四個數值優化行為策略,在學習過程中agenti會朝信息微量相對多的方向行動的概率會增大。
3.如權利要求1所述的多智能體協作信息處理方法,其特征在于,所述第二步組隊策略Gt,使用分組模型找到多智能體之間更好的合作策略,分組模型使用RNN網絡設計出多智能體之間的分組關系,稱為G模型,并且通過G模型能夠預測出多智能體在下一時刻的最優分組;
每個agent通過自己的Actor網絡選出下一步行為a,通過Critic網絡更新Actor策略,經過G模型的組隊,agent1和agent3組隊訓練Critic1網絡,agent2和agent1、agent3組隊訓練Critic2網絡,agent3和agent2組隊訓練Critic3網絡用有向圖表示agent組隊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學,未經成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010211670.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防止患者墜床的感應報警器
- 下一篇:質量評估方法及裝置





