[發(fā)明專利]針對智能體意外出錯情況的多智能體強化學習方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110862910.0 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113592099A | 公開(公告)日: | 2021-11-02 |
| 發(fā)明(設(shè)計)人: | 李厚強;周文罡;趙鑒;趙有朋 | 申請(專利權(quán))人: | 中國科學技術(shù)大學 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京凱特來知識產(chǎn)權(quán)代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 針對 智能 意外 出錯 情況 強化 學習方法 系統(tǒng) | ||
1.一種針對智能體意外出錯情況的多智能體強化學習方法,其特征在于,包括:
多智能體強化學習過程中,引入自適應(yīng)掉線率,根據(jù)當前自適應(yīng)掉線率進行隨機采樣,將一部分智能體設(shè)置為掉線狀態(tài),其他智能體正常工作,處于掉線狀態(tài)的智能體輸出隨機動作;
每隔設(shè)定的步數(shù)對當前模型進行測試,根據(jù)模型測試結(jié)果來調(diào)整自適應(yīng)掉線率的大小。
2.根據(jù)權(quán)利要求1所述的一種針對智能體意外出錯情況的多智能體強化學習方法,其特征在于,所述多智能體強化學習過程中將掉線狀態(tài)的智能體輸出的隨機動作與正常工作的智能體輸出的動作通過混合網(wǎng)絡(luò)進行決策,得到最終輸出動作,通過最終輸出動作計算損失,從而進行多智能體強化學習。
3.根據(jù)權(quán)利要求1所述的一種針對智能體意外出錯情況的多智能體強化學習方法,其特征在于,所述根據(jù)模型測試結(jié)果來調(diào)整自適應(yīng)掉線率的大小包括:
如果模型測試結(jié)果表明模型性能超過性能閾值,則通過下式調(diào)整自適應(yīng)掉線率的大小:
α′=α+ρ*(1-α)
如果模型測試結(jié)果表明模型性能未超過性能閾值,則通過下式調(diào)整自適應(yīng)掉線率的大小:
α′=α+ρ*(0-α)
其中,ρ為更新自適應(yīng)掉線率α的學習率,α′為調(diào)整后的自適應(yīng)掉線率。
4.根據(jù)權(quán)利要求1~3任一項所述的一種針對智能體意外出錯情況的多智能體強化學習方法,其特征在于,所述自適應(yīng)掉線率記為α,表征每個智能體掉線的概率,每個智能體的掉線概率服從參數(shù)為α的伯努利分布。
5.根據(jù)權(quán)利要求1~3任一項所述的一種針對智能體意外出錯情況的多智能體強化學習方法,所述根據(jù)當前自適應(yīng)掉線率進行隨機采樣包括:
在訓練時,每一次與環(huán)境完整的交互都有一個對應(yīng)的自適應(yīng)掉線率,按照伯努利分布進行隨機采樣。
6.根據(jù)權(quán)利要求1~3任一項所述的一種針對智能體意外出錯情況的多智能體強化學習方法,當處于掉線狀態(tài)的智能體的數(shù)量超出當前掉線率的期望時,則重新進行采樣,直到掉線智能體數(shù)量符合期望。
7.一種針對智能體意外出錯情況的多智能體強化學習系統(tǒng),其特征在于,該系統(tǒng)包括:
自適應(yīng)掉線率設(shè)置與隨機采樣單元,用于多智能體強化學習過程中,引入自適應(yīng)掉線率,根據(jù)當前自適應(yīng)掉線率進行隨機采樣,將一部分智能體設(shè)置為掉線狀態(tài),其他智能體正常工作,處于掉線狀態(tài)的智能體輸出隨機動作;
自適應(yīng)掉線率調(diào)整單元,用于每隔設(shè)定的步數(shù)對當前模型進行測試,根據(jù)模型測試結(jié)果來調(diào)整自適應(yīng)掉線率的大小。
8.一種處理設(shè)備,其特征在于,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序;
其中,當所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述一個或多個處理器實現(xiàn)如權(quán)利要求1~6任一項所述的方法。
9.一種可讀存儲介質(zhì),存儲有計算機程序,其特征在于,當計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1~6任一項所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學技術(shù)大學,未經(jīng)中國科學技術(shù)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110862910.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





