[發明專利]一種基于深度強化學習的配電網過流保護方法有效
| 申請號: | 202010018729.7 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN111130053B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 李嘉文;余濤 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | H02H1/00 | 分類號: | H02H1/00;H02H3/00;G06N3/08;G06N3/04 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 裴磊磊 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 配電網 保護 方法 | ||
本發明公開了一種基于深度強化學習的配電網過流保護方法,包括步驟:啟動保護,判斷一周波內電流速斷保護是否動作:若電流速斷保護未動作,則無需進行定值優化;若電流速斷保護動作,則進行定值優化;根據訓練完成的MA?DDPG算法確定最優定值;判斷當前電流有效值與最優定值的大小關系:若當前定流有效值大于最優定值,則保護出口動作;若當前電流有效值小于等于最優定值,則判斷電流與啟動值的大小關系:若電流小于啟動值,則保護返回;否則返回判斷一周波內電流速斷保護是否動作的步驟進行循環。本發明首次將深度強化學習的內容應用于繼電保護領域,將人工智能技術與傳統繼電保護技術相結合提高保護的效率。
技術領域
本發明涉及電力系統繼電保護的技術領域,尤其涉及一種基于深度強化學習的配電網過流保護方法。
背景技術
隨著能源與環境問題日益加重,以能源利用率高、兼容環境、適應可再生能源為特點的分布式發電(distributed generation DG)日益成為研究的熱點。DG與大電網聯合運行,具有供電靈活性、可靠性和安全性等社會效益,還具有削峰填谷,降低網損,提高現有設備利用率等經濟效益。但在另一方面,DG的接入改變了配電網單電源輻射型結構,也改變了電力系統運行狀態和故障水平,進而對繼電保護提出了嚴峻的挑戰,小容量DG對保護的影響并不大,但是一些大型DG的共同作用就可能會導致傳統三段式電流保護誤動作。同時,DG靈活多樣的接入方式,也使保護的配合關系變得更為復雜。現有的配電網保護方案是當故障發生時,立即切除電網中所有DG,以確保原有保護能夠正確動作。而統計結果表明,配電網中80%的故障都是瞬時性故障,盲目切除DG將會限制DG的正常運行,削弱供電可靠性,為了解決上述問題,本發明致力于研發含DG的配電網自適應保護新方案。
DDPG(Deep Deterministic Policy Gradient)是利用DQN擴展Q學習算法的思路對DPG方法進行改造得到的具有Actor-Critic(AC)框架的算法,該算法可用于解決連續動作空間上的深度強化學習問題。相對于DPG,其核心改進是采用卷積神經網絡作為策略函數μ和Q函數的函數近似,即策略網絡和Q網絡,然后使用深度學習的方法來訓練上述神經網絡。
Actor-Critic(AC)由策略網絡(Actor)和評價網絡(Critic)構成,Critic網絡評價Actor網絡生成的動作好壞,Actor網絡根據Critic網絡的評價修改動作。Actor-Critic網絡工作流程具體如下:①Actor網絡根據當前環境狀態生成動作;②環境根據動作給予回報;③Critic網絡對動作進行評價;④Actor網絡依據Critic網絡的評價來調整下次輸出的動作,即調整策略;⑤Critic網絡根據回報r來修正評價準則。如此循環,直至網絡收斂或達到設定的閾值。
Actor-Critic涉及兩個神經網絡,在連續狀態中每次更新參數前后都存在相關性,有時導致神經網絡更新具有片面性,甚至出現無法學習到東西的問題。為解決該問題,技術人員對Actor-Critic算法進行了修改,得到deep deterministic policy gradient(DDPG)算法。
DDPG網絡由演員-評論家(Actor-Critic)主網絡和Actor-Critic目標網絡構成,并且添加記憶庫。Actor-Critic主網絡每次與環境交互都會產生一組樣本并將其放入記憶庫,當需要使用時從記憶庫隨機取出,這樣降低了樣本間的相關性。Actor-Critic主網絡跟Actor-Critic目標網絡結構相同,但是參數不同,Actor-Critic主網絡定期將參數傳給Actor-Critic目標網絡,通過計算評論家(Critic)主網絡與Critic目標網絡所對應生成的值函數的誤差值來對Critic主網絡的參數進行更新,進而實現對Critic主網絡參數的優化。在Actor-Critic主網絡中,Actor主網絡根據Critic主網絡來實現參數優化。DDPG的網絡結構成功解決了Actor-Critic網絡在連續動作預測上學不到東西的問題,從而實現對連續動作空間序列的控制。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010018729.7/2.html,轉載請聲明來源鉆瓜專利網。





