[發明專利]一種多智能體強化學習方法、電子設備及存儲介質有效
| 申請號: | 202011049089.2 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN111898770B | 公開(公告)日: | 2021-01-15 |
| 發明(設計)人: | 李輝;吳昊霖 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06N20/20 | 分類號: | G06N20/20;G06N3/04 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 王婷婷 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 強化 學習方法 電子設備 存儲 介質 | ||
本申請提供了一種多智能體強化學習方法、電子設備及存儲介質,該方法可以包括如下步驟:(1)針對多智能體系統中的每個單位構建一個智能體;(2)每個智能體依次與環境交互,獲得獎勵函數;(3)通過值函數融合模塊將每個智能體的個體值函數融合成全局值函數;(4)針對所有智能體的全局值函數進行訓練;(5)依次針對每個智能體的個體值函數進行訓練;(6)判斷是否達到預定的訓練總次數,是則退出訓練,否則返回步驟(2)繼續訓練。該方法使用所有智能體的全局值函數,可以兼顧所有個體值函數的更新,促使智能體之間的協作,以獲取更大的集體利益,通過兩種值函數的共同更新,提高訓練效率。
技術領域
本公開實施例涉及機器學習領域,具體而言,涉及一種多智能體強化學習方法、電子設備及存儲介質。
背景技術
強化學習智能體可通過與環境進行交互的方式完成行為策略的自主學習,因此在諸如機器臂控制、棋牌類游戲以及游戲等單智能體領域的任務中獲得成功應用。但是,現實生活中的很多任務往往需要多個智能體通過協作完成,如物流機器人、無人駕駛、大型即時戰略游戲等任務。因此,多智能體強化學習在近年來愈發受到關注。
在協作型多智能體任務中,由于通信限制,每個智能體通常只能感知到自己可視范圍內的局部信息。如果每個智能體根據各自的局部信息進行學習,則智能體之間很難形成有效的協作?,F有的方法很難判斷究竟是哪一些智能體的動作帶來了獎勵函數的改變,因而有可能訓練得到一個鼓勵該智能體進行無效動作的策略。所以,該問題導致在訓練過程中無法對每個智能體的策略學習進行針對性的調整,繼而導致訓練效率的降低。
發明內容
本申請提供一種多智能體強化學習方法、電子設備及存儲介質,旨在解決上述背景技術中所提到的問題。
本申請第一方面提供了一種多智能體強化學習方法,所述方法包括:
S110、對多智能體的每個單位構建一個智能體,每個智能體包括在線智能體網絡和目標智能體網絡;
S120、對所述多智能體構建值函數融合網絡,所述值函數融合網絡包括在線融合網絡和目標融合網絡;
S130、執行動作決策階段,每個智能體的所述在線智能體網絡根據該智能體的當前時刻局部信息,計算得到該智能體的所有的當前時刻個體值函數,并基于該智能體的所有的當前時刻個體值函數輸出該智能體的當前時刻動作決策,并在環境中執行該動作決策,以得到該智能體的下一時刻局部信息;當所有智能體執行各自的當前時刻動作決策后,環境返回一個所有智能體共享的獎勵函數;
S140、模型訓練階段,將所有智能體所執行的各自當前動作決策對應的當前時刻個體值函數輸入所述在線融合網絡,得到當前時刻實際全局值函數;每個智能體依次將各自的下一時刻個體局部信息輸入到各自的目標智能體網絡,得到下一時刻各自的所有個體值函數,并從中選擇最大的下一時刻個體值函數;將所有智能體的最大的下一時刻個體值函數輸入所述目標融合網絡,得到下一時刻的最優全局值函數;
S150、利用所述當前時刻實際全局值函數和所述下一時刻最優全局值函數,對所述在線智能體網絡和所述在線融合網絡進行訓練,對所述在線智能網絡體的參數和所述在線融合網絡的網絡參數進行更新;
S160、對所述多智能體中的第i個智能體,當第i個智能體的當前時刻個體值函數的更新目標大于第i個智能體的當前時刻個體值函數時,利用第i個智能體的最大的下一時刻個體值函數和當前時刻個體值函數,對第i個智能體的所述在線智能體網絡進行訓練,對第i個智能體的所述在線智能體網絡的參數進行再次更新,其中,第i個智能體的當前時刻個體值函數的更新目標為,其中,為強化學習算法的折扣因子。
可選地,所述利用所述當前時刻實際全局值函數和所述下一時刻最優全局值函數,對所述在線智能網絡體的參數和所述在線融合網絡的參數進行更新,是按照以下基于全局值函數的第一損失函數進行的:;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011049089.2/2.html,轉載請聲明來源鉆瓜專利網。





