[發明專利]基于深度強化學習的電網拓撲優化和潮流控制的方法在審
| 申請號: | 202111362751.4 | 申請日: | 2021-11-17 |
| 公開(公告)號: | CN114065452A | 公開(公告)日: | 2022-02-18 |
| 發明(設計)人: | 周毅;周良才;丁佳立;何紅玉;高佳寧 | 申請(專利權)人: | 國家電網有限公司華東分部 |
| 主分類號: | G06F30/18 | 分類號: | G06F30/18;G06F30/27;G06N3/08;G06Q50/06 |
| 代理公司: | 上海思微知識產權代理事務所(普通合伙) 31237 | 代理人: | 田婷 |
| 地址: | 200125 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 電網 拓撲 優化 潮流 控制 方法 | ||
1.一種基于深度強化學習的電網拓撲優化和潮流控制方法,其特征在于,包括:
S1:構建智能體;
S2:獲取電網的多個歷史斷面潮流數據,并對多個歷史斷面潮流數據進行模仿學習,以確定所述智能體的參數的初始值;
S3:獲取用于所述智能體訓練的樣本,并將所述樣本輸入所述智能體,所述樣本包括多個時刻的在線斷面潮流數據;
S4:對t時刻的所述在線斷面潮流數據進行訓練,得到多個電網拓撲優化的控制策略,并按動作價值的大小從大到小排列,獲取N個動作價值排在前列的控制策略,其中,N為正整數;
S5:在電網環境仿真器中驗證所述N個動作價值排在前列的控制策略,以獲得回報最高的控制策略;
S6:電網環境仿真器執行所述回報最高的控制策略并獲取t時刻的獎勵值、t時刻的結束標志和t+1時刻的系統狀態;
S7:將t時刻的系統狀態、t時刻回報最高的控制策略、t時刻的獎勵值、t+1時刻的系統狀態和t時刻的結束標志作為數組存儲到緩沖區中,t時刻的結束標志為真的數組存儲次數越多;
S8:從緩沖區中隨機采樣多個數組,對采樣得到的獎勵值計算動作價值函數的目標值;
S9:t的取值加1;
S10:循環步驟S6~步驟S9,其中,每求得M次獎勵值后,根據所述動作價值函數的目標值更新智能體參數,M為設定的正整數,完成所有時刻的在線斷面潮流數據的智能體訓練,從中選出最優的智能體參數;
S11:使用具有最優的智能體參數的智能體在實時環境下完成電網拓撲優化和潮流控制,以得到電網拓撲優化和潮流控制的方法。
2.如權利要求1所述的電網拓撲優化和潮流控制的方法,其特征在于,所述智能體為競爭深度Q網絡訓練得到的神經網絡模型。
3.如權利要求1所述的電網拓撲優化和潮流控制的方法,其特征在于,所述樣本的個數為多個,每個所述樣本均包括多個時刻的在線斷面潮流數據,每個所述樣本均輸入所述智能體進行訓練。
4.如權利要求1所述的電網拓撲優化和潮流控制的方法,其特征在于,N的值為10。
5.如權利要求1所述的電網拓撲優化和潮流控制的方法,其特征在于,所述數組的形式為st,at,rt,st+1,dt,其中,st為t時刻的系統狀態,at為t時刻的系統狀態,rt為t時刻的獎勵值,st+1為t+1時刻的系統狀態,dt為t時刻的結束標志。
6.如權利要求5所述的電網拓撲優化和潮流控制的方法,其特征在于,t的初始值為1,并且t為正整數。
7.如權利要求1所述的電網拓撲優化和潮流控制的方法,其特征在于,所述智能體的參數包括:所述智能體中的網絡神經元之間的權重和連接關系。
8.如權利要求1所述的電網拓撲優化和潮流控制的方法,其特征在于,獲取用于所述智能體訓練的樣本的方法包括:
獲取多個在線斷面潮流數據;
判斷所述在線斷面潮流數據是否越限;
如果斷面潮流數據越限,則此在線斷面潮流數據作為樣本。
9.如權利要求8所述的電網拓撲優化和潮流控制的方法,其特征在于,判斷斷面潮流數據越限的方法包括:
判斷所述斷面潮流數據是否大于設定值,如果大于設定值,則認為斷面潮流數據越限。
10.如權利要求1所述的電網拓撲優化和潮流控制的方法,其特征在于,所述控制策略包括:改變電網拓撲結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司華東分部,未經國家電網有限公司華東分部許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111362751.4/1.html,轉載請聲明來源鉆瓜專利網。





