[發明專利]訓練智能體的方法和裝置有效
| 申請號: | 202010077714.8 | 申請日: | 2020-01-31 |
| 公開(公告)號: | CN113206786B | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 毛航宇;劉武龍;郝建業 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | H04L45/243 | 分類號: | H04L45/243;H04L45/00;G06N3/00;G06N3/08 |
| 代理公司: | 北京龍雙利達知識產權代理有限公司 11329 | 代理人: | 時林;王君 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訓練 智能 方法 裝置 | ||
本申請提供了一種訓練智能體的方法,包括:獲取第一智能體的環境信息和第二智能體的環境信息;根據所述第一智能體的環境信息和所述第二智能體的環境信息生成第一信息;利用所述第一信息訓練所述第一智能體,使得所述第一智能體輸出個體認知信息和鄰域認知信息,其中,所述第一智能體的鄰域認知信息與所述第二智能體的鄰域認知信息具有一致性。由于目標智能體的鄰域認知信息與鄰域智能體的鄰域認知信息相同或相近,因此,基于目標智能體的鄰域認知信息訓練得到的目標智能體提高了目標智能體對鄰域環境的正確認知程度,最終得到的目標智能體生成的動作能夠提高多個智能體之間的協作效果。
技術領域
本申請涉及人工智能領域,具體涉及一種訓練智能體的方法和裝置。
背景技術
多智能體(agent)協作是人工智能領域的一個應用場景。例如,在包含多個路由器的通信網絡中,每個路由器都可以看作一個智能體,每個路由器有自己的流量調度策略,多個路由器的流量調度策略需要彼此協調,以便于用較少的資源完成流量調度任務。
一種解決上述問題的方法是多智能體強化學習,該方法將特定任務的目標描述成獎勵函數,通過智能體直接與環境和其它智能體進行交互,自動學習能夠獲得最大長期累積獎勵的策略,進而協調多個智能體解決特定任務。
當前,多智能體強化學習方法通常采用全局協調機制。當智能體的數量較少時,全局協調機制的效果尚可接受;當智能體的數量較多時,智能體之間的交互關系極其復雜,全局協調機制的效果難以滿足需求。如何協調多智能體的策略是當前需要解決的問題。
發明內容
本申請提供了一種訓練智能體的方法和裝置,能夠取得較好的多智能體協作效果。
第一方面,提供了一種訓練智能體的方法,包括:獲取第一智能體的環境信息和第二智能體的環境信息;根據所述第一智能體的環境信息和所述第二智能體的環境信息生成第一信息;利用所述第一信息訓練所述第一智能體,使得所述第一智能體輸出個體認知信息和鄰域認知信息,其中,所述第一智能體的鄰域認知信息與所述第二智能體的鄰域認知信息具有一致性。
由于第一智能體的鄰域認知信息與第二智能體的鄰域認知信息相同或相近,因此,基于第一智能體的鄰域認知信息訓練得到的第一智能體提高了第一智能體對鄰域環境的正確認知程度,最終得到的第一智能體生成的動作能夠提高多個智能體之間的協作效果。此外,個體認知信息反映了第一智能體的特定環境,基于個體認知信息和鄰域認知信息訓練第一智能體,能夠使得第一智能體生成的動作能夠滿足第一智能體的個體需求以及鄰域智能體的需求。
可選地,所述根據所述第一智能體的環境信息和所述第二智能體的環境信息生成第一信息,包括:
根據所述第一智能體的環境信息生成所述第一智能體的第二信息hi;
根據所述第二智能體的環境信息生成所述第二智能體的第二信息hj;
根據hi和hj生成所述第一信息。
可以通過深度神經網絡將第一智能體的環境信息oi和第二智能體的環境信息oj轉變為第二信息,第二信息包括oi和oj抽象化后的內容,比原始環境信息(oi和oj)包含更豐富的內容,有利于做決策的神經網絡做出更加準確的決策。
可選地,所述根據hi和hj生成所述第一信息,包括:根據hi和第一矩陣的乘積確定第一結果;根據hj和第二矩陣的乘積確定第二結果;根據所述第一結果和所述第二結果生成所述第一信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010077714.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:陣列天線裝置及其制備方法和電子設備
- 下一篇:分段標識的處理方法及設備





