[發明專利]基于多智能體深度強化學習的電網輸電線路防御方法有效
| 申請號: | 202011260720.3 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112491818B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 高鎮;余亮;沈超;岳東;竇春霞;劉愛萍 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06N3/04;G06N3/08;G06N5/04;G06N7/00 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 許婉靜 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 智能 深度 強化 學習 電網 輸電 線路 防御 方法 | ||
本發明公開了一種基于多智能體深度強化學習的電網輸電線路防御方法,所述方法包括:基于環境狀態、智能體的攻擊行為和智能體的獎勵,采用預設的訓練方法訓練各智能體的深度神經網絡;根據訓練得到的深度神經網絡和環境狀態,各智能體自主確定攻擊行為,攻擊資源用完后得到各智能體的最優攻擊線路集合;多次重復上述步驟,根據各智能體的最優攻擊線路集合得到最優防御線路集合進行重點防御。本發明能夠有效降低電網因多階段協同輸電線路攻擊帶來的性能損失。
技術領域
本發明涉及一種基于多智能體深度強化學習的電網輸電線路防御方法,屬于智能電網安全與人工智能交叉技術領域。
背景技術
電網的大規模互聯實現了大范圍的資源共享優化。在取得顯著經濟效益的同時,電網中信息和物理系統存在的高度耦合特性給電網安全穩定運行帶來了新的挑戰。當網絡或物理攻擊發起時,有可能導致輸電線路斷開,進而引發一系列連鎖反應并造成電網大面積電力中斷,如印度2012年大停電。因此,將這些可能引發連鎖反應并導致電網解列和大面積電力中斷的輸電線路集合識別出來并加以防守,對于提高電網抵御攻擊的能力具有重要意義。
為了識別出上述輸電線路集合并加以防守,現有研究提出了基于攻防博弈的輸電線路最優攻擊/防守策略,采用的方法有雙層規劃、博弈理論。然而,大多研究考慮的是單階段攻擊(即同時攻擊單條或多條輸電線路后立刻結束攻擊),而非多階段攻擊(即進行多輪單/多條輸電線路攻擊)。事實上,基于強化學習方法的研究結果表明:在給定相同攻擊資源前提下,多階段攻擊可造成比單階段攻擊更大的損失。然而,該方法僅考慮了小規模電網。當電網規模逐步變大時,狀態空間隨之增大,動作空間也會急劇增加,進而導致現有方法不再適用(如無法收斂)。盡管采用深度強化學習方法可克服狀態空間較大帶來的挑戰,但動作空間隨攻擊階段數增加呈指數級增長使得單智能體深度強化學習方法不具有可擴展性。
發明內容
本發明的目的在于克服現有技術中的不足,提供一種基于多智能體深度強化學習的電網輸電線路防御方法,能夠有效降低電網遭受多階段協同輸電線路攻擊帶來的損失。為達到上述目的,本發明是采用下述技術方案實現的:
第一方面,本發明提供了一種基于多智能體深度強化學習的電網輸電線路防御方法,所述方法包括如下步驟:
基于環境狀態、智能體的攻擊行為和智能體的獎勵,采用預設的訓練方法訓練各智能體的深度神經網絡;
根據訓練得到的深度神經網絡和環境狀態,各智能體自主確定攻擊行為,攻擊資源用完后得到各智能體的最優攻擊線路集合;
多次重復上述步驟,根據各智能體的最優攻擊線路集合得到最優防御線路集合進行重點防御。
結合第一方面,進一步地,所述預設的訓練方法包括:
初始化環境狀態;
獲取電網的當前環境狀態;
根據電網當前環境狀態,各智能體的深度神經網絡輸出對電網的攻擊行為,智能體實施協同攻擊行為;
獲取電網根據協同攻擊行為調整自身維持功率平衡后的當前時間步獎勵和下一時間步環境狀態;
將當前環境狀態、智能體的協同攻擊行為、當前時間步獎勵和下一時間步環境狀態發送至經驗池中;
判斷是否對神經網絡的權重進行更新:
若當前訓練片段數能夠被預先設定的更新參數整除,則需要對各智能體的深度神經網絡進行權重更新:從經驗池中提取小批量的訓練樣本進行權重更新,更新完畢后時間步+1,
若當前訓練片段數不能夠被預先設定的更新參數整除,則不需要對各智能體的神經網絡進行權重更新:記錄時間步+1;
判斷當前訓練片段是否結束:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011260720.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種塑料顆粒加工系統及加工工藝
- 下一篇:一種用電綜合監控系統





