[發明專利]一種基于深度強化學習的AGC機組動態優化方法有效
| 申請號: | 202010972441.3 | 申請日: | 2020-09-16 |
| 公開(公告)號: | CN112186811B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 張沛;李家騰;呂曉茜;宋秉睿;孟祥飛 | 申請(專利權)人: | 北京交通大學 |
| 主分類號: | H02J3/46 | 分類號: | H02J3/46;H02J3/48;H02J3/24;H02J3/00 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 黃曉軍 |
| 地址: | 100044 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 agc 機組 動態 優化 方法 | ||
1.一種基于深度強化學習的AGC機組動態優化方法,其特征在于:
AGC機組動態優化方法目標函數為使優化周期內總成本最小,即:
式中,T為控制周期時長,即15min;FR,t、FS,t分別為AGC機組調節輔助服務費用和隨機性成本;
根據上述模型,將15分鐘的控制周期分為15個階段的馬爾可夫過程,決策過程的主要變量包括:
狀態空間S:狀態空間包括t時刻常規機組和AGC機組的真實出力系統中真實的頻率偏差Δftr、聯絡線功率偏差區域控制誤差t+1時刻系統負荷預測值風電預測值頻率偏差聯絡線功率偏差以及區域控制誤差的預測值即:
動作空間A:為各個優化時段AGC機組有功出力,AGC機組出力用增量的形式表示,即
考慮到AGC機組同時參與系統一次和二次調頻,則各AGC機組t+1時刻的出力值為:
式中,即第i臺AGC機組相對t時刻的調節功率,也即二次調頻功率;表示第i臺AGC機組相對t時刻的一次調頻功率,KGi為第i臺AGC機組的單位調節功率,Δftr分別為t+1時刻和t時刻系統中真實的頻率偏差;
對于不參與二次調頻的非AGC機組,第t+1時刻的出力值為:
考慮到機組出力上下限約束,將各臺AGC機組t+1時刻的實際出力限制在出力上下限之間,即
即時獎勵rt:由系統的總成本和懲罰組成,包括AGC機組調節輔助服務費用和隨機性成本,懲罰項rpenel主要包括機組越限懲罰r1、CPS1指標懲罰r2、頻率偏差懲罰r3以及聯絡線功率偏差懲罰r4:
式中,k1為機組越限懲罰系數;
式中,k2、k3分別為ACE和CPS1指標的懲罰系數,ACE*和CPS1*分別為ACE和CPS1的理想取值,本方法取0和200%;
式中,k4為頻率偏差懲罰系數;
式中,k5為聯絡線功率偏差懲罰系數;
因此,系統中總懲罰項rpenel即,
rpenel=r1+r2+r3+r4 (24)
即時獎勵rt即,
rt=-(F+rpenel) (25)
式中,F為式(1)所示優化周期內的總成本;
狀態轉移概率P:由于本方法中下一時刻的狀態值、即時獎勵值必須通過與環境的交互才能得到,它們共同組成包含環境隨機性的狀態轉移概率P;
折扣因子γ∈[0,1]表示未來時刻的獎勵對當前獎勵的重要性;
將上述馬爾可夫過程的模型采用深度強化學習算法求解,得到最優的決策。
2.如權利要求1所述的一種基于深度強化學習的AGC機組動態優化方法,其特征在于,將馬爾可夫過程的模型采用深度Q學習算法的策略求解。
3.如權利要求1所述的一種基于深度強化學習的AGC機組動態優化方法,其特征在于,將馬爾可夫過程的模型采用Dueling DQN、Double DQN、深度確定性策略梯度算法、或近端策略優化算法求解。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京交通大學,未經北京交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010972441.3/1.html,轉載請聲明來源鉆瓜專利網。





