[發明專利]一種面向多智能體強化學習能源系統的魯棒對抗訓練框架在審
| 申請號: | 202211516697.9 | 申請日: | 2022-11-30 |
| 公開(公告)號: | CN116306903A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 陳永輝;劉軒驛;林彤;王戰;李隆鋒;陳雙照;朱凌風;翁洪康 | 申請(專利權)人: | 浙江浙能樂清發電有限責任公司;浙江浙能數字科技有限公司 |
| 主分類號: | G06N3/094 | 分類號: | G06N3/094;G06N3/092;G06N20/00 |
| 代理公司: | 杭州九洲專利事務所有限公司 33101 | 代理人: | 張羽振 |
| 地址: | 325600 浙江省溫*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 智能 強化 學習 能源 系統 對抗 訓練 框架 | ||
本發明涉及一種面向多智能體強化學習能源系統的魯棒對抗訓練框架,包括:構造一個對抗智能體以生成對抗攻擊,并建模為對抗性部分可觀察的隨機博弈系統;固定經過預訓練的被害多智能體策略,訓練一個最優的確定性對抗策略來產生有界擾動;固定最優的對抗攻擊策略,通過對抗性訓練提高最優攻擊者下受害者策略的魯棒性。本發明的有益效果是:本發明將對抗性攻擊建模為一個基于單智能體強化學習的攻擊對手,并學習得到考慮攻擊約束的最強攻擊策略。從數學上,將該問題構建為對抗馬爾可夫博弈,并通過魯棒對抗訓練提高基于多智能體強化學習的綜合能源管理系統的性能。
技術領域
本發明涉及電力系統安全防御領域,更確切地說,它涉及一種面向多智能體強化學習能源系統的魯棒對抗訓練框架。
背景技術
隨著社會經濟的發展和能源需求的增長,電力系統正在經歷從化石燃料到清潔能源的規劃和運行的根本性革命。在能源互聯網快速發展的背景下,電、氣、熱、冷等多種能源耦合協調的綜合能源系統可實現多能互補,促進可再生能源消納,提升能源利用效率,緩解供需不平衡。相較于傳統電力系統,綜合能源系統的能量流動更加復雜,其運行調控涉及更復雜的負荷需求、供應裝置和運行方式。能源需求、供應和存儲相互高度耦合的新特征,將引起系統運行方式和動態特性復雜性提高、源荷雙側不確定性加劇、仿真系統數學模型變量與維數增多、安全穩定裕度減小等問題,從而致使基于數學模型機理的傳統綜合能源管理方法難以滿足在線評估與實時控制的需求。為此,以多智能體強化學習為核心的數據驅動綜合能源管理方法應運而生。隨著信息和通信技術的融合,基于多智能體強化學習的綜合能源管理系統其安全性與脆弱性問題更加不容小覷。綜合能源管理系統的通信網絡,包括監控和數據采集網絡和智能電表等設備,都很容易受到惡意網絡行為者的攻擊。
發明內容
本發明的目的是克服現有技術中的不足,提供了一種面向多智能體強化學習能源系統的魯棒對抗訓練框架。本發明通過魯棒對抗訓練增強基于多智能體強化學習的綜合能源管理系統對對抗攻擊的抵御能力。首先構建了一個對手智能體,其目標是通過制定對抗攻擊、造成控制系統的最差表現,將系統建模為一個對抗的部分可觀察隨機博弈系統;接著訓練該對手智能體,以學習一個最優的確定性對抗攻擊策略來產生有界擾動;最后對被害的多智能體強化學習綜合能源管理系統采用魯棒對抗訓練,以增強模型魯棒性。
第一方面,提供了一種面向多智能體強化學習能源系統的魯棒對抗訓練框架,包括:
步驟1、構造一個對抗智能體以生成對抗攻擊,并建模為對抗性部分可觀察的隨機博弈系統;
步驟2、固定經過預訓練的被害多智能體策略,訓練一個最優的確定性對抗策略來產生有界擾動;
步驟3、固定最優的對抗攻擊策略,通過對抗性訓練提高最優攻擊者下受害者策略的魯棒性。
作為優選,步驟1包括:
步驟1.1,將基于多智能體強化學習的綜合能源管理系統表述為部分可觀察的隨機博弈問題,每個智能體控制一個建筑,通過優化所有智能體的策略以使得整個團隊的累積獎勵最大化:
N,S,{Ai}i∈N,P,{Ri}i∈N,γ,{Oi}i∈N,Z
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江浙能樂清發電有限責任公司;浙江浙能數字科技有限公司,未經浙江浙能樂清發電有限責任公司;浙江浙能數字科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211516697.9/2.html,轉載請聲明來源鉆瓜專利網。





