[發明專利]一種分層決策的完全合作多智能體強化學習方法和系統有效
| 申請號: | 202111042960.0 | 申請日: | 2021-09-07 |
| 公開(公告)號: | CN113780577B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 劉俊濤;王振杰;高子文;王元斌;黃志剛 | 申請(專利權)人: | 中國船舶重工集團公司第七0九研究所 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 深圳市六加知識產權代理有限公司 44372 | 代理人: | 向彬 |
| 地址: | 430000 湖北省*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分層 決策 完全 合作 智能 強化 學習方法 系統 | ||
本發明公開了一種分層決策的完全合作多智能體強化學習方法:初始化模型參數;對每一個智能體,每隔T時間步長產生上層動作;對每一個智能體,在每個時間步長產生下層動作;將所有智能體產生的下層動作,輸入到環境中執行,得到總回報和新的環境狀態,和所有智能體對新的環境狀態的觀察;在每個時間步長,更新下層全局狀態?動作函數的參數;對每一個智能體,在每個時間步長更新下層策略函數的參數;每隔T時間步長更新上層全局狀態?動作函數參數;對每一個智能體,每隔T時間步長更新上層策略函數的參數;如果學習過程收斂或者達到最大迭代次數則結束學習,否則返回繼續學習。本發明還提供了相應的分層決策的完全合作多智能體強化學習系統。
技術領域
本發明屬于強化學習技術領域,更具體地,涉及一種分層決策的完全合作多智能體強化學習方法和系統。
背景技術
強化學習(Reinforcement?Learning,RL),又稱再勵學習、評價學習或增強學習,是機器學習的范式和方法論之一,用于描述和解決智能體(Agent)在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。多個智能體參與的強化學習面臨“維數災難”問題,即動作空間的大小隨智能體的個數呈指數增長。
發明內容
針對現有技術的以上缺陷或改進需求,本發明提供了一種分層決策的完全合作多智能體強化學習方案,通過采用分層決策的方法實現多智能體強化學習,減小動作空間,提高訓練速度。
為實現上述目的,按照本發明的一個方面,提供了一種分層決策的完全合作多智能體強化學習方法,包括:
S1初始化模型參數;
S2對每一個智能體i,每隔T時間步長,產生上層動作;具體為,對每一個智能體i,每隔T時間步長,根據智能體i觀察到的環境狀態oi,對智能體i所有可能的高層動作計算執行的概率根據上述概率隨機產生智能體i的上層動作其中是智能體i的上層動作集合,是智能體i的上層策略函數,是其參數,T是預設值;
S3對每一個智能體i,在每個時間步長,產生下層動作;
S4將所有智能體產生的下層動作輸入到環境中執行,得到總回報r和新的環境狀態,所有智能體對新的環境狀態的觀察為o'=(o'1,o'2,...,o'n);
S5在每個時間步長,更新下層全局狀態-動作函數的參數;
S6對每一個智能體i,在每個時間步長,更新下層策略函數的參數;
S7每隔T時間步長,更新上層全局狀態-動作函數參數;
S8對每一個智能體i,每隔T時間步長,更新上層策略函數的參數;
S9如果學習過程收斂或者達到最大迭代次數,則結束學習,否則返回S2。
本發明的一個實施例中,所述步驟S3具體為:對每一個智能體i,在每個時間步長,根據智能體i產生的上層動作和觀察到的環境狀態oi,對智能體i的上層動作所屬的所有下層動作計算執行的概率按照上述概率,隨機產生智能體i的下層動作其中是智能體i的上層動作所屬的下層動作集合,是智能體i的下層策略函數,是其參數。
本發明的一個實施例中,所述步驟S5具體為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國船舶重工集團公司第七0九研究所,未經中國船舶重工集團公司第七0九研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111042960.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種神經內科康復訓練裝置
- 下一篇:一種智能機旁控制裝置及控制方法





