[發明專利]一種基于深度強化學習的電力系統順序恢復方法及裝置在審

申請號：	202111305997.8	申請日：	2021-11-05
公開（公告）號：	CN114048989A	公開（公告）日：	2022-02-15
發明（設計）人：	高宇馨;黃偉;張添益;程威;黃澤真	申請（專利權）人：	浙江工業大學
主分類號：	G06Q10/06	分類號：	G06Q10/06;G06Q10/04;G06Q50/06;G06N3/08
代理公司：	杭州求是專利事務所有限公司 33200	代理人：	忻明年
地址：	310014 浙***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于深度強化學習電力系統順序恢復方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于深度強化學習的電力系統順序恢復方法及裝置，通過構建包括深度強化學習Q值估計網絡和Target Q網絡的電力系統恢復模型，并訓練該電力系統恢復模型。基于級聯失效后的電力網絡，通過深度強化學習后得到的總線恢復順序，評估電力網絡系統在系統恢復過程中對級聯故障的恢復能力，將強化學習與電力網絡相結合，站在防御者角度考慮電力網絡的恢復問題，與神經網絡的結合，擴大了電力網絡的實現范圍，即可以找到大型電網的恢復最優策略。

技術領域

本申請屬于電力系統級聯失效恢復技術領域，尤其涉及一種基于深度強化學習的電力系統順序恢復方法及裝置。

背景技術

電網是現代文明社會的重要基礎設施，電網的大規模互聯已成為全世界范圍內電力系統發展的必然趨勢，電網的安全運行已越來越成為社會經濟生活高效運作的有效保證。但是電網級聯故障和大停電事故卻對電網的安全運行提出了挑戰。在復雜電網中，由初始的局部故障演變為雪崩式的級聯故障，往往會導致電網大面積崩潰的災難性后果。由于故障過程具有隨機性和不可預測性，對級聯故障進行恢復，是復雜電力網絡建設的基礎和關鍵。

大多數現有研究是從攻擊者角度出發，對防御者的描述較少，而從防御者的角度考慮級聯失效的恢復問題，對于現代電力網絡的高度發展，更具實用性。

發明內容

本申請的目的是提供一種基于深度強化學習的電力系統順序恢復方法及裝置，用于順利對級聯故障進行恢復。

為了實現上述目的，本申請技術方案如下：

一種基于深度強化學習的電力系統順序恢復方法，包括：

構建包括深度強化學習Q值估計網絡和Target Q網絡的電力系統恢復模型，初始化Q值估計網絡、Target Q網絡和經驗回放池；

獲取用于訓練的電力系統數據集，隨機選擇刪除電力系統數據集中預設數量的總線，作為初始總線狀態，然后隨機選擇一個總線狀態作為當前狀態輸入到Q值估計網絡，根據ε貪婪策略選擇動作，并執行動作，生成對應的獎勵和下一時刻的狀態信息，將當前總線狀態、動作、獎勵和下一時刻的狀態作為一個訓練樣本放入經驗回放池中；

根據樣本選擇間隔，從經驗回放池中采樣抽取訓練樣本，采用獲取的訓練樣本訓練Q值估計網絡，并采用Q值估計網絡的網絡參數更新Target Q網絡的網絡參數，直到達到預設的循環次數；

將級聯失效后的電力系統總線狀態輸入到訓練好的電力系統恢復模型中，獲取恢復動作，對級聯失效后的電力系統進行恢復。

進一步的，所述采用獲取的訓練樣本訓練Q值估計網絡，采用如下損失函數：

其中γ是衰減因子，max_a′Q(s_j+1,a′；θ′)是輸入狀態s_j+1時Target Q值網絡執行最優動作后的累計獎勵，Q(s_j,a_j,θ)是輸入狀態s_j時Q值估計網絡執行動作a_j后的累計獎勵，a_j是在j時刻時的選擇執行的動作，r_j是在j時刻時執行動作后生成的即時獎勵。a′表示所有可能執行的動作之一，最優動作就是在Q(s_j+1,a′；θ′)最大時所執行的動作。

進一步的，所述將級聯失效后的電力系統總線狀態輸入到訓練好的電力系統恢復模型中，獲取恢復動作，對級聯失效后的電力系統進行恢復之后，還包括：

進行孤島檢測，將孤島及輸電線路從電力系統中刪除。

進行電力再調度，實現負載平衡。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學，未經浙江工業大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111305997.8/2.html，轉載請聲明來源鉆瓜專利網。