[發明專利]機組組合及調度分布式事件觸發強化學習優化方法及系統有效
| 申請號: | 202210274572.3 | 申請日: | 2022-03-21 |
| 公開(公告)號: | CN114362258B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 劉帥;王小文;趙浩然;孫波;邢蘭濤;劉龍成;王瑞琪 | 申請(專利權)人: | 山東大學 |
| 主分類號: | H02J3/46 | 分類號: | H02J3/46;G06Q10/06;G06Q10/04;G06Q50/06 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張慶騫 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 機組 組合 調度 分布式 事件 觸發 強化 學習 優化 方法 系統 | ||
1.一種機組組合及調度分布式事件觸發強化學習優化方法,其特征在于,包括:
基于智能電網的發電機組的參數,得到機組組合及調度優化模型,并在預設約束條件下,構建固定動作集合,選出各機組的最優功率即虛擬發電功率;
將約束條件轉化為投影約束,將虛擬發電功率投影到相應約束范圍內,得到符合約束范圍內的各機組實際發電功率;
基于無帶寬約束下各機組實行實際發電功率時的成本,計算相應獎勵,再根據Q-學習算法更新Q表中每個機組的局部Q值,進而得到各機組在無帶寬約束下的功率全局最優解即最優動作;
固定各機組的最優動作,在考慮帶寬的約束條件下,將通信帶寬限制值描述為時間段內的懲罰閾值,得到滿足有限帶寬約束下的機組組合和調度問題的最優解。
2.如權利要求1所述的機組組合及調度分布式事件觸發強化學習優化方法,其特征在于,所述機組組合及調度優化模型的表達式為:
其中為折扣因子;為終止時間;為機組在時間的發電成本;為機組在時間時輸出功率的成本;表示機組在時間參與調度指標,若機組在時間時參與,則,否則;為機組在時間可能的關閉成本;為機組在時間熱啟動成本;表示機組在時間的狀態;為機組在時間的輸出功率;
3.如權利要求2所述的機組組合及調度分布式事件觸發強化學習優化方法,其特征在于,機組在時間的狀態的表達式為:
其中,為機組的最小啟動時間,為機組的最小停機時間,為機組冷卻方法的時間,和為機組的初始輸出功率和初始輸出電流,為機組的調度時間段,為機組在時間的輸出功率;為機機組在時間的輸出電流,為機組在時間的輸出電流。
4.如權利要求1所述的機組組合及調度分布式事件觸發強化學習優化方法,其特征在于,所述預設約束條件包括:供需平衡約束、禁止作業區、最小啟停時間約束、發電斜坡約束、發電容量約束和旋轉備用約束。
5.如權利要求1所述的機組組合及調度分布式事件觸發強化學習優化方法,其特征在于,將通信帶寬限制值描述為時間段內的懲罰閾值之后還包括:
將事件觸發機制的設計轉化為求解帶有約束的目標為最大化獎勵和的優化問題,通過訓練神經網絡,求解出上述問題,得到最優的門控策略即事件觸發機制。
6.一種機組組合及調度分布式事件觸發強化學習優化系統,其特征在于,包括:
虛擬發電功率篩選模塊,其用于基于智能電網的發電機組的參數,得到機組組合及調度優化模型,并在預設約束條件下,構建固定動作集合,選出各機組的最優功率即虛擬發電功率;
約束投影模塊,其用于將約束條件轉化為投影約束,將虛擬發電功率投影到相應約束范圍內,得到符合約束范圍內的各機組實際發電功率;
全局最優解求解模塊,其用于基于無帶寬約束下各機組實行實際發電功率時的成本,計算相應獎勵,再根據Q-學習算法更新Q表中每個機組的局部Q值,進而得到各機組在無帶寬約束下的功率全局最優解即最優動作;
有限帶寬約束求解模塊,其用于固定各機組的最優動作,在考慮帶寬的約束條件下,將通信帶寬限制值描述為時間段內的懲罰閾值,得到滿足有限帶寬約束下的機組組合和調度問題的最優解。
7.如權利要求6所述的機組組合及調度分布式事件觸發強化學習優化系統,其特征在于,所述機組組合及調度優化模型的表達式為:
其中為折扣因子;為終止時間;為機組在時間的發電成本;為機組在時間時輸出功率的成本;表示機組在時間參與調度指標,若機組在時間時參與,則,否則;為機組在時間可能的關閉成本;為機組在時間熱啟動成本;表示機組在時間的狀態;為機組在時間的輸出功率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210274572.3/1.html,轉載請聲明來源鉆瓜專利網。





