[發(fā)明專利]一種面向多智能體強化學(xué)習(xí)能源系統(tǒng)的魯棒對抗訓(xùn)練框架在審
| 申請?zhí)枺?/td> | 202211516697.9 | 申請日: | 2022-11-30 |
| 公開(公告)號: | CN116306903A | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計)人: | 陳永輝;劉軒驛;林彤;王戰(zhàn);李隆鋒;陳雙照;朱凌風(fēng);翁洪康 | 申請(專利權(quán))人: | 浙江浙能樂清發(fā)電有限責(zé)任公司;浙江浙能數(shù)字科技有限公司 |
| 主分類號: | G06N3/094 | 分類號: | G06N3/094;G06N3/092;G06N20/00 |
| 代理公司: | 杭州九洲專利事務(wù)所有限公司 33101 | 代理人: | 張羽振 |
| 地址: | 325600 浙江省溫*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 智能 強化 學(xué)習(xí) 能源 系統(tǒng) 對抗 訓(xùn)練 框架 | ||
1.一種面向多智能體強化學(xué)習(xí)能源系統(tǒng)的魯棒對抗訓(xùn)練框架,其特征在于,包括:
步驟1、構(gòu)造一個對抗智能體以生成對抗攻擊,并建模為對抗性部分可觀察的隨機博弈系統(tǒng);
步驟2、固定經(jīng)過預(yù)訓(xùn)練的被害多智能體策略,訓(xùn)練一個最優(yōu)的確定性對抗策略來產(chǎn)生有界擾動;
步驟3、固定最優(yōu)的對抗攻擊策略,通過對抗性訓(xùn)練提高最優(yōu)攻擊者下受害者策略的魯棒性。
2.根據(jù)權(quán)利要求1所述的面向多智能體強化學(xué)習(xí)能源系統(tǒng)的魯棒對抗訓(xùn)練框架,其特征在于,步驟1包括:
步驟1.1,將基于多智能體強化學(xué)習(xí)的綜合能源管理系統(tǒng)表述為部分可觀察的隨機博弈問題,每個智能體控制一個建筑,通過優(yōu)化所有智能體的策略以使得整個團隊的累積獎勵最大化:
其中,N是智能體數(shù)量,S是環(huán)境狀態(tài),Ai是第i個智能體的動作空間,是聯(lián)合動作空間,定義為A=A1×…×AN;P:S×A×S→Δ(S)是任意t時刻給定動作下從狀態(tài)st到下一個t+1時刻狀態(tài)st+1的狀態(tài)轉(zhuǎn)移概率;是第i個智能體從(st,at)到下一時刻狀態(tài)st+1的及時反饋獎勵;γ是折扣因子;Oi是第i個智能體的觀測空間,聯(lián)合觀測空間是{Oi}i∈N,定義為O=O1×…×ON;Z:S×A→Δ(O)是任意t時刻聯(lián)合觀測ot∈O在任意動作at下,狀態(tài)st的觀測概率;
在t時刻,每個智能體i根據(jù)觀測通過策略選擇動作然后,環(huán)境根據(jù)狀態(tài)轉(zhuǎn)移概率P移動到下一個狀態(tài),st+1~P(·|st,at);每個智能體i獲得獎勵和新的局部觀測
步驟1.2、在所述綜合能源管理系統(tǒng)中引入一個對手智能體,通過生成最強對抗攻擊引起模型最差性能,將這個系統(tǒng)建模為對抗性部分可觀察的隨機博弈問題:
<W,S,Aadv,{Ai}i∈N,P,{Ri}i∈w,Radv,γ,{Oi}i∈N,Z>
其中N是受害智能體數(shù)量,S是環(huán)境狀態(tài),Aadv和Radv分別是攻擊者的行動空間和獎勵函數(shù);Ai是第i個受害智能體的動作空間,是聯(lián)合動作空間,定義為A=A1×…×AN;P:S×Aadv×A×S→Δ(S)是給定動作和Aadv下從狀態(tài)st到下一個時刻狀態(tài)st+1的狀態(tài)轉(zhuǎn)移概率;是第i個智能體從(st,at)到下一時刻狀態(tài)st+1的及時反饋獎勵;γ是折扣因子;Oi是第i個智能體的觀測空間,聯(lián)合觀測空間是{Oi}i∈N,定義為O=O1×…×ON;Z:S×A→Δ(O)是任意t時刻聯(lián)合觀測ot∈O在任意動作at下,狀態(tài)st的觀測概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江浙能樂清發(fā)電有限責(zé)任公司;浙江浙能數(shù)字科技有限公司,未經(jīng)浙江浙能樂清發(fā)電有限責(zé)任公司;浙江浙能數(shù)字科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211516697.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





