[發明專利]強化學習緊急直流功率支援的頻率穩定系統及方法在審
| 申請號: | 202211514021.6 | 申請日: | 2022-11-30 |
| 公開(公告)號: | CN115809597A | 公開(公告)日: | 2023-03-17 |
| 發明(設計)人: | 孫正龍;莊鈞植;劉鋮;姜超;蔡國偉 | 申請(專利權)人: | 東北電力大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;H02J13/00;G06N3/084;G06N3/045;G06N3/092;G06F113/04 |
| 代理公司: | 長春市吉利專利事務所(普通合伙) 22206 | 代理人: | 王楠楠;李曉莉 |
| 地址: | 132012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化 學習 緊急 直流 功率 支援 頻率 穩定 系統 方法 | ||
1.一種強化學習緊急直流功率支援的頻率穩定系統,其特征在于,包括:
初始化模塊,用于配置基于鄰近優化策略算法的強化學習網絡的網路參數、設置交互間每次循環的最大交互次數和所要訓練的循環數,讀取預設的緊急直流功率支援指令集合及電力系統的特征電氣量集合;
交互模塊,用于執行以下操作:在電力系統運行一個交互間隔步長后讀取一次特征電氣量數據,若強化學習網絡有緊急直流功率支援的指令輸出,則將指令傳遞給電力系統;
數據處理模塊,用于將交互模塊所讀取的特征電氣量分為以下三類:決策措施電氣量、控制效果電氣量和安全約束電氣量;
評判模塊,用于根據直流系統兩端的交流母線頻率值,利用獎勵函數得到獎勵值;
決策模塊,用于將所述決策措施電氣量作為強化學習網絡的輸入數據傳入至強化學習網絡,將緊急直流功率支援指令作為強化學習網絡的輸出,使得直流系統能夠在電力系統發生擾動時給出相應的緊急直流功率支援措施使得系統頻率恢復到安全范圍;
學習模塊,用于根據控制效果電氣量判斷頻率恢復效果及根據安全約束電氣量判斷是否觸發電力系統安全約束,并在此基礎上結合評判模塊得到的獎勵值更新強化學習網絡的網路參數。
2.根據權利要求1所述的強化學習緊急直流功率支援的頻率穩定系統,其特征在于:所述基于鄰近優化策略算法的強化學習網絡包含兩個神經網絡,分別為策略神經網絡和價值神經網絡,其中策略神經網絡的輸入為實時的直流系統兩端的交流母線頻率值及其變化率,輸出為緊急直流功率支援指令;價值神經網絡的輸入為實時的直流系統兩端的交流母線頻率值及其變化率和所述緊急直流功率支援指令,輸出為用于更新策略神經網絡和價值神經網絡的神經網絡權重;所述特征電氣量包括最近的一個或多個交互間隔內若干時間點的直流系統兩端的交流母線頻率值及其變化率、直流系統逆變側換流母線電壓、直流電流、逆變側換流變漏抗、逆變側換流變變比、逆變側關斷角、超前觸發角和鄰近直流系統的線路功率;所述基于鄰近優化策略算法的強化學習網絡的網絡參數包括學習率、批大小、梯度裁剪大小和折扣因子大小;所述緊急直流功率支援指令集合由電力系統中參與緊急直流功率支援的設備和允許的緊急直流功率支援范圍構建而成;所述緊急直流功率支援的設備即所控制的電力系統中能夠進行緊急直流功率支援的直流系統;所述允許的緊急直流功率支援范圍即整個電力系統或單個直流系統所允許輸出功率的最低值和最高值,允許的緊急直流功率支援范圍為直流聯網線路額定傳輸功率的20%至50%。
3.根據權利要求2所述的強化學習緊急直流功率支援的頻率穩定系統,其特征在于:所述交互間隔為強化學習網絡每隔多久與電力系統進行一次交互的時間,設定每個交互間隔為1秒。
4.根據權利要求3所述的強化學習緊急直流功率支援的頻率穩定系統,其特征在于:所述決策措施電氣量包括直流系統兩端的交流母線頻率值及其變化率,決策措施電氣量用于作為強化學習網絡的輸入值;所述控制效果電氣量包括直流系統兩端的交流母線頻率值,通過頻率的恢復程度判斷上一個交互間隔內強化學習網絡給出的緊急直流功率支援指令控制效果;安全約束電氣量包括直流系統兩端的交流母線頻率、直流系統逆變側換流母線電壓、直流電流、逆變側換流變漏抗、逆變側換流變變比、逆變側關斷角、超前觸發角和鄰近直流系統的線路功率。
5.根據權利要求1所述的強化學習緊急直流功率支援的頻率穩定系統,其特征在于:所述決策模塊中強化學習網絡的輸入為決策措施電氣量,輸出為緊急直流功率支援指令,緊急直流功率支援指令包括所要進行緊急直流功率支援的設備和緊急直流功率支援的支援量。
6.根據權利要求1所述的強化學習緊急直流功率支援的頻率穩定系統,其特征在于:所述獎勵函數設置如下:
若頻率恢復值在49.8Hz~50.5Hz之間,則獎勵值為10000;
若頻率恢復值小于49.8Hz,則獎勵值為當前頻率值與理想頻率值差值的絕對值的負值;
若頻率恢復值大于50.5Hz,則獎勵值為-10000;
同時若觀測到直流系統逆變側換流母線電壓低于安全閾值或線路功率超過安全功率約束,則獎勵值會被減去10000。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北電力大學,未經東北電力大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211514021.6/1.html,轉載請聲明來源鉆瓜專利網。





