[發(fā)明專利]基于兩階段深度強化學習的電網無功電壓控制方法有效
| 申請?zhí)枺?/td> | 202010412805.2 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111564849B | 公開(公告)日: | 2021-11-02 |
| 發(fā)明(設計)人: | 吳文傳;劉昊天;孫宏斌;王彬;郭慶來;夏天 | 申請(專利權)人: | 清華大學 |
| 主分類號: | H02J3/16 | 分類號: | H02J3/16;H02J3/38 |
| 代理公司: | 北京知聯(lián)天下知識產權代理事務所(普通合伙) 11594 | 代理人: | 張陸軍 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 階段 深度 強化 學習 電網 無功 電壓 控制 方法 | ||
本公開提供了一種基于兩階段深度強化學習的電網無功電壓控制方法及控制系統(tǒng),包括以下步驟:根據區(qū)域電網的仿真模型與無功電壓優(yōu)化模型,搭建基于馬爾科夫過程的交互訓練環(huán)境;在所述基于馬爾科夫過程的交互訓練環(huán)境中,采用SAC算法離線訓練無功電壓控制模型;將所述無功電壓控制模型部署至區(qū)域電網在線系統(tǒng);獲取區(qū)域電網的運行狀態(tài)信息,更新所述無功電壓控制模型,生成最優(yōu)無功電壓控制策略。相較于現有的基于強化學習的電網優(yōu)化方法,本公開的在線控制訓練成本與安全隱患大幅降低,更適合部署在實際電力系統(tǒng)中。
技術領域
本公開涉及電力系統(tǒng)運行和控制技術領域,特別涉及一種基于兩階段深度強化學習的電網無功電壓控制方法。
背景技術
隨著風電、光伏等分布式可再生能源發(fā)電(Distributed Generation,簡稱DG)裝機容量和并網發(fā)電量持續(xù)增加,電網的運行模式發(fā)生了根本性的變化。隨著DG滲透率的不斷提高,配電網、新能源電站及其匯集區(qū)引發(fā)了功率倒送、電壓越限、設備脫網、網損嚴重等一系列問題。同時,分布式可再生能源發(fā)電一般通過逆變器接入電網,作為靈活性資源,具備大量可調能力。接入電網的DG,有必要也有義務參與到系統(tǒng)的調控過程中。目前,包括群控群調系統(tǒng)在內的各類智能電網調控系統(tǒng)已成為提高電網安全運行水平、降低運行成本、促進DG消納的關鍵措施。其中,無功電壓控制利用靈活性資源的無功能力,優(yōu)化電網無功分布,進而抑制電壓越限、降低網絡損耗,是各類智能電網調控系統(tǒng)的關鍵模塊。
然而,目前包括無功電壓控制在內的電網調控系統(tǒng)現場應用,往往面臨嚴重的模型不完備問題,即電網模型參數可信度低,龐大的規(guī)模和頻繁的變動導致模型難以被準備維護,接入設備的特性負載難以被精確建模。在這種電網模型不完備場景的情況下,如果使用傳統(tǒng)基于模型的無功電壓控制方法,只能采用與實際系統(tǒng)存在偏差的近似模型進行控制,無法保證控制指令的最優(yōu)性,容易出現無法抑制電壓越限、網損較高的情況,甚至會惡化電網無功分布,產生安全和經濟問題。因此,必須采用數據驅動類方法,如深度強化學習方法,在線學習電網特性,從而在模型不完備場景下依然能進行最優(yōu)無功電壓控制。但是,深度強化學習往往體現出較低的在線訓練效率和安全性。因此,如何提高無功電壓控制網絡模型的學習效率與安全性是本領域亟需解決的問題。
發(fā)明內容
針對上述問題,本公開提供一種基于兩階段深度強化學習的電網無功電壓控制方法及裝置。
一種基于兩階段深度強化學習的電網無功電壓控制方法,包括以下步驟:
根據區(qū)域電網的仿真模型與無功電壓優(yōu)化模型,搭建基于馬爾科夫過程的交互訓練環(huán)境;
在所述基于馬爾科夫過程的交互訓練環(huán)境中,采用SAC算法離線訓練無功電壓控制模型;
將所述無功電壓控制模型部署至區(qū)域電網在線系統(tǒng);
獲取區(qū)域電網的運行狀態(tài)信息,更新所述無功電壓控制模型,生成最優(yōu)無功電壓控制策略。
優(yōu)選的,所述的基于兩階段深度強化學習的電網無功電壓控制方法,還包括以下步驟:
將所述最優(yōu)無功電壓控制策略發(fā)送至各可控設備,重新獲取區(qū)域電網運行狀態(tài)信息。
優(yōu)選的,所述將所述最優(yōu)無功電壓控制策略發(fā)送至各可控設備,重新獲取區(qū)域電網運行狀態(tài)信息包括:
將所述最優(yōu)無功電壓控制策略通過電網遙控系統(tǒng)下發(fā)至各對應設備;
重新獲取電網運行狀態(tài)信息s′t,計算回饋變量值rt,更新經驗庫為
D←D∪{(st,at,rt,s′t)};
重復所述獲取區(qū)域電網的運行狀態(tài)信息,更新所述無功電壓控制模型,生成最優(yōu)無功電壓控制策略。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010412805.2/2.html,轉載請聲明來源鉆瓜專利網。





