[發明專利]多智能體協作信息處理方法、系統、存儲介質、智能終端在審
| 申請號: | 202010211670.3 | 申請日: | 2020-03-23 |
| 公開(公告)號: | CN111582469A | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 鄒長杰;鄭皎凌;張中雷 | 申請(專利權)人: | 成都信息工程大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/02;G06N20/00 |
| 代理公司: | 北京元本知識產權代理事務所(普通合伙) 11308 | 代理人: | 王紅霞 |
| 地址: | 610225 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 智能 體協 信息處理 方法 系統 存儲 介質 終端 | ||
本發明屬于人工智能技術領域,公開了一種多智能體協作信息處理方法、系統、存儲介質、智能終端,每個agent在環境中每采取下一步行為在環境中留下自己的信息微量,當其它agent到達環境中狀態時會先搜索周圍的信息微量,把信息微量加入到神經網絡中進行訓練;分組模型找到多智能體之間更好的合作策略,分組模型使用多智能體之間的分組關系,預測出多智能體在下一時刻的最優分組;在每次經過G模型訓練一回合結束時,把每個agent的損失函數公式看作適應度,統計每一回合智能體軌跡的損失值均值,匯總每一回合所有agent軌跡的損失值。本發明提高了多智能體的團隊學習效率,實現多智能體能夠團隊協作更好的完成任務。
技術領域
本發明屬于人工智能技術領域,尤其涉及一種多智能體協作信息處理方法、系統、存儲介質、智能終端。
背景技術
目前,多智能體協作是在實際應用的新課題,也是一項富有挑戰意義的課題。a)如何讓多智能體在更大和隨機環境中仍然能夠高效地學習是強化學習一直存在的挑戰。強化學習中一些算法采用策略迭代方式訓練智能體,可以泛化到更大尺寸的環境中,但是這種方式只能用在單智能體算法的優化上,在多智能體系統中,此種方式就沒那么適用了。b)讓多智能體能像人一樣組隊合作完成目標是一項新課題。深度強化學習使用異步框架來訓練多智能體,每個智能體相對于其它智能體都是獨立的,如果出現各個智能體分工不一樣的情況,異步框架就不適用了。一些多智能體算法中智能體的交互是全連接,這樣不僅增加算法復雜度更難應用到現實中。c)如何管理多智能體訓練學習中的生和滅也是多智能體強化學習的一個難題。多智能體訓練學習中,不管智能體學習的好和壞,每回合都會同時結束當前訓練。因此,讓學習好的智能體繼續訓練,學習差的智能體重新學習也是一項挑戰。
現有技術缺點:
a)基于策略梯度的單智能體強化學習
強化學習分為兩大類:有模型強化學習、無模型強化學習,其中無模型又可以分為基于值和基于策略。自從2015年引入強化學習以來,Q-learning、Sarsa和TD-lambda等算法成為強化學習的主流。Q-learing、Sarsa、TD-lambda都是無模型基于值迭代的算法,使用時間差分法TD,無需等待到終止時間才進行更新,而是在下一步行動前就可以進行估計的更新。與蒙特卡洛方法相比時間差分法TD會進行極大雖然估計,使得估計的結果更符合未來數據的趨勢。深度強化學習(Deep Reinforcement Learning,DRL),它將具有決策的強化學習和具有感知的深度學習相結合。最初,它被應用于視頻游戲領域,隨著深度強化學習的不斷創新,它解決了越來越多的問題,如控制機器人,工廠智能機器人手臂,人臉識別,視頻分析。DQN在Q-learning的改進下被提出來,它解決了Q-learning“緯度災難”的問題。DQN做的三大改進為:使用經驗重放和目標網絡穩定基于DL的近似動作值函數;使用端到端方法,將CNN網絡將原始圖片和游戲得分作為輸入,使得模型僅需較少的領域知識;訓練出可變的網絡,在多任務中具有良好的表現,有些實驗結果還超越人類專業玩家。為了消除強化學習數據之間的強相關性,DQN使用均勻采樣經驗重放機制來訓練神經網絡,然而均勻采樣方法忽略了不同經驗的重要性程度,因此,提出了優先經驗重放,利用TD error對智能體經驗的重要性進行衡量和重放多次,進而提高學習效率。Hasselt等人[7]在DQN基礎上提出DoubleDQN算法,將動作選擇和價值估計分開,避免價值過高估計。和上面所提到的基于值迭代算法不同的是,Policy Gradient算法往往采用的回合更新,也就是要到一輪結束后才能進行更新,這樣在評估一個策略時通常效率較低。Actor-Critic結合Policy Gradient和TD算法,采用單步更新解決評估策略低效的問題。在AC算法的基礎上DPG、A3C被提出來,其中A3C與DQN經驗重放機制不同,采用并行訓練方法打破了訓練數據間的相關性。相比AC算法,A3C可大幅度提升算法的學習效率。和AC不同的是,DPG算法采用TD的方式降低方差,能更好地應用于off-policy。DDPG算法由DPG算法改進而來,其在輸入上僅僅依賴狀態空間,可以應對高維的輸入,實現端對端的控制,還可以輸出連續動作,使得深度強化學習方法可以應用于較為復雜動作空間和連續動作空間。TRPO結合Policy Gradient和蒙特卡洛方法,通過一步步改進梯度策略,提高算法的穩定性。PPO算法和TRPO算法近似,該算法更能適應大規模的運算,在實現的難易程度、采樣復雜度、調試所需精力之間取得了新的平衡。盡管現有的單智能體算法很成熟,但是當任務變為多個智能體合作模式,就打破了單智能體算法的基本前提,環境變得非穩定性,單智能體算法算法就很難學習好策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學,未經成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010211670.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防止患者墜床的感應報警器
- 下一篇:質量評估方法及裝置





