[發明專利]一種基于深度強化學習的電力系統順序恢復方法及裝置在審
| 申請號: | 202111305997.8 | 申請日: | 2021-11-05 |
| 公開(公告)號: | CN114048989A | 公開(公告)日: | 2022-02-15 |
| 發明(設計)人: | 高宇馨;黃偉;張添益;程威;黃澤真 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06Q10/06 | 分類號: | G06Q10/06;G06Q10/04;G06Q50/06;G06N3/08 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 忻明年 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 電力系統 順序 恢復 方法 裝置 | ||
本發明公開了一種基于深度強化學習的電力系統順序恢復方法及裝置,通過構建包括深度強化學習Q值估計網絡和Target Q網絡的電力系統恢復模型,并訓練該電力系統恢復模型。基于級聯失效后的電力網絡,通過深度強化學習后得到的總線恢復順序,評估電力網絡系統在系統恢復過程中對級聯故障的恢復能力,將強化學習與電力網絡相結合,站在防御者角度考慮電力網絡的恢復問題,與神經網絡的結合,擴大了電力網絡的實現范圍,即可以找到大型電網的恢復最優策略。
技術領域
本申請屬于電力系統級聯失效恢復技術領域,尤其涉及一種基于深度強化學習的電力系統順序恢復方法及裝置。
背景技術
電網是現代文明社會的重要基礎設施,電網的大規模互聯已成為全世界范圍內電力系統發展的必然趨勢,電網的安全運行已越來越成為社會經濟生活高效運作的有效保證。但是電網級聯故障和大停電事故卻對電網的安全運行提出了挑戰。在復雜電網中,由初始的局部故障演變為雪崩式的級聯故障,往往會導致電網大面積崩潰的災難性后果。由于故障過程具有隨機性和不可預測性,對級聯故障進行恢復,是復雜電力網絡建設的基礎和關鍵。
大多數現有研究是從攻擊者角度出發,對防御者的描述較少,而從防御者的角度考慮級聯失效的恢復問題,對于現代電力網絡的高度發展,更具實用性。
發明內容
本申請的目的是提供一種基于深度強化學習的電力系統順序恢復方法及裝置,用于順利對級聯故障進行恢復。
為了實現上述目的,本申請技術方案如下:
一種基于深度強化學習的電力系統順序恢復方法,包括:
構建包括深度強化學習Q值估計網絡和Target Q網絡的電力系統恢復模型,初始化Q值估計網絡、Target Q網絡和經驗回放池;
獲取用于訓練的電力系統數據集,隨機選擇刪除電力系統數據集中預設數量的總線,作為初始總線狀態,然后隨機選擇一個總線狀態作為當前狀態輸入到Q值估計網絡,根據ε貪婪策略選擇動作,并執行動作,生成對應的獎勵和下一時刻的狀態信息,將當前總線狀態、動作、獎勵和下一時刻的狀態作為一個訓練樣本放入經驗回放池中;
根據樣本選擇間隔,從經驗回放池中采樣抽取訓練樣本,采用獲取的訓練樣本訓練Q值估計網絡,并采用Q值估計網絡的網絡參數更新Target Q網絡的網絡參數,直到達到預設的循環次數;
將級聯失效后的電力系統總線狀態輸入到訓練好的電力系統恢復模型中,獲取恢復動作,對級聯失效后的電力系統進行恢復。
進一步的,所述采用獲取的訓練樣本訓練Q值估計網絡,采用如下損失函數:
其中γ是衰減因子,maxa′Q(sj+1,a′;θ′)是輸入狀態sj+1時Target Q值網絡執行最優動作后的累計獎勵,Q(sj,aj,θ)是輸入狀態sj時Q值估計網絡執行動作aj后的累計獎勵,aj是在j時刻時的選擇執行的動作,rj是在j時刻時執行動作后生成的即時獎勵。a′表示所有可能執行的動作之一,最優動作就是在Q(sj+1,a′;θ′)最大時所執行的動作。
進一步的,所述將級聯失效后的電力系統總線狀態輸入到訓練好的電力系統恢復模型中,獲取恢復動作,對級聯失效后的電力系統進行恢復之后,還包括:
進行孤島檢測,將孤島及輸電線路從電力系統中刪除。
進一步的,所述將級聯失效后的電力系統總線狀態輸入到訓練好的電力系統恢復模型中,獲取恢復動作,對級聯失效后的電力系統進行恢復之后,還包括:
進行電力再調度,實現負載平衡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111305997.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種水平床
- 下一篇:一種新型3D增材成型打印裝置及打印方法
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





