[發明專利]基于多智能體深度強化學習的電網輸電線路防御方法有效
| 申請號: | 202011260720.3 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112491818B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 高鎮;余亮;沈超;岳東;竇春霞;劉愛萍 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;G06N3/04;G06N3/08;G06N5/04;G06N7/00 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 許婉靜 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 智能 深度 強化 學習 電網 輸電 線路 防御 方法 | ||
1.一種基于多智能體深度強化學習的電網輸電線路防御方法,其特征在于,所述方法包括如下步驟:
基于環境狀態、智能體的攻擊行為和智能體的獎勵,采用預設的訓練方法訓練各智能體的深度神經網絡;所述預設的訓練方法包括:
初始化環境狀態;
獲取電網的當前環境狀態;
根據電網當前環境狀態,各智能體的深度神經網絡輸出對電網的攻擊行為,各智能體實施協同攻擊行為;
獲取電網根據協同攻擊行為調整自身維持功率平衡后的當前時間步獎勵和下一時間步環境狀態;
將當前環境狀態、智能體的協同攻擊行為、當前時間步獎勵和下一時間步環境狀態發送至經驗池中;
判斷是否對神經網絡的權重進行更新:
若當前訓練片段數能夠被預先設定的更新參數整除,則需要對各智能體的深度神經網絡進行權重更新:從經驗池中提取小批量的訓練樣本進行權重更新,更新完畢后時間步+1,
若當前訓練片段數不能夠被預先設定的更新參數整除,則不需要對各智能體的神經網絡進行權重更新:記錄時間步+1;
判斷當前訓練片段是否結束:
若未達到預先設定的片段長度,則當前訓練片段未結束,重新獲取電網的當前環境狀態,并繼續后續訓練步驟,
若達到預先設定的片段長度,則當前訓練片段結束:記錄片段數+1;
判斷訓練片段數是否達到上限:
若已記錄的片段數<預先設定的片段數,則訓練片段數未達到上限:重新初始化環境狀態,并繼續后續訓練步驟,
若已記錄的片段數≥預先設定的片段數,則訓練片段數達到上限,結束訓練;
根據訓練得到的深度神經網絡和環境狀態,各智能體自主確定攻擊行為,攻擊資源用完后得到各智能體的最優攻擊線路集合;
多次重復上述步驟,根據各智能體的最優攻擊線路集合得到最優防御線路集合進行重點防御。
2.根據權利要求1所述的一種基于多智能體深度強化學習的電網輸電線路防御方法,其特征在于,從經驗池中提取小批量的學習樣本進行權重更新包括:
利用優先經驗回放機制,從經驗池中獲取學習價值高的經驗作為小批量學習樣本;
根據小批量學習樣本,采用預先設定的學習算法依次訓練各智能體的深度神經網絡。
3.根據權利要求2所述的一種基于多智能體深度強化學習的電網輸電線路防御方法,其特征在于,優先經驗回放機制包括:
計算出經驗i的時序差分誤差δ,評估經驗i的學習價值;
根據經驗i的時序差分誤差δ的絕對值計算經驗池中經驗i的優先級pi:
pi=|δ|+ε (1)
式(1)中,ε>0,用于保證具有較低時序差分誤差的經驗有一定概率回收;
將經驗池中經驗的優先級進行排序,回放優先級pi高的經驗,獲取學習價值高的經驗;
經驗i的采樣概率為:
式(2)中,α用于確定優先級所占比重,α=0時隨機采樣經驗。
4.根據權利要求2所述的一種基于多智能體深度強化學習的電網輸電線路防御方法,其特征在于,各智能體的深度神經網絡中包括行動者網絡和評論家網絡,各智能體之間的協同通過注意力網絡完成;
所述評論家網絡包括狀態與行為聯合編碼模塊,用于在輸入觀測狀態和行為后,輸出觀測狀態和行為聯合編碼;
采用預先設定的學習算法訓練各智能體的深度神經網絡包括:
將所有智能體評論家網絡的狀態與行為聯合編碼模塊的輸出作為注意力網絡的輸入;
注意力網絡輸出所有其他智能體對某一待訓練智能體的貢獻值;
根據所述貢獻值訓練該待訓練智能體的行動者網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011260720.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種塑料顆粒加工系統及加工工藝
- 下一篇:一種用電綜合監控系統





