[發明專利]基于深度確定性策略算法的發電機組啟停配置方法及系統有效
| 申請號: | 201810054828.3 | 申請日: | 2018-01-19 |
| 公開(公告)號: | CN108321795B | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 程引;林淑怡;張衛東;趙亞東;何星;蔡云澤 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | H02J3/00 | 分類號: | H02J3/00;H02J3/06;G06Q10/06;G06Q50/06 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 應小波 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 確定性 策略 算法 發電 機組 配置 方法 系統 | ||
1.一種基于深度確定性策略算法的發電機組啟停配置方法,其特征在于,該方法將機組組合啟停分配問題構造成為強化學習序列決策問題,所述的方法包括以下步驟:
1)將前一歷史時刻各機組出力值向量作為智能體觀測狀態,用以作為深度策略網絡的輸入向量;
2)針對連續時間序列機組啟停優化問題,使用深度確定性策略梯度算法給出優化決策序列,輸出機組在該時刻的啟停向量,實現對機組啟停狀態的分配;
所述的深度確定性策略梯度算法包括深度策略網絡的訓練過程和執行過程;
所述的訓練過程包括以下步驟:
首先,通過數據采集單元獲得機組歷史出力記錄數據;
其次,將各個時刻的機組歷史出力合并成智能體狀態向量,輸入至深度策略網絡,得到候選啟停向量;
然后,在候選啟停向量的基礎上利用最優潮流解出各機組出力,以對應運行成本作為強化學習獎勵函數值;
最后,經過迭代訓練使得深度策略網絡收斂;
所述的執行過程包括以下步驟:
首先,重新按時間順序輸入歷史機組出力;
其次,通過深度策略網絡得到優化啟停向量;
然后,根據優化啟停向量求解對應時刻最優潮流;
最后,根據最優潮流對應的機組出力生成新的智能體狀態向量,依次繼續解出后續時段的全部優化啟停表。
2.一種基于深度確定性策略算法的發電機組啟停配置系統,其特征在于,包括數據采集單元、強化學習訓練單元、最優潮流解算單元和強化學習執行單元;
在系統進行訓練過程中,強化學習執行單元退出運行,由搭載深度確定性策略梯度算法的強化學習訓練單元作為優化核心;
當系統進入執行狀態中,強化學習執行單元替代強化學習訓練單元加入運行,直接利用訓練完成的深度策略網絡生成智能體狀態向量對應的優化啟停向量;
所述的系統進行訓練過程具體為:
所述的數據采集單元記錄當前時刻之前的機組歷史出力數據,并合成為當前時刻的強化學習智能體狀態向量;
所述的強化學習訓練單元由深度策略網絡初始參數生成當前時刻對應的候選啟停向量;
所述的最優潮流解算單元在啟停表確定的基礎上,考慮基本系統約束、旋轉備用約束、機組特性約束以及網絡安全約束,對該時刻各機組出力進行統一解算;
所述的強化學習訓練單元利用得到的各機組出力結果,計算出獎勵函數值,使用深度確定性策略梯度算法修正候選啟停序列,經過多次迭代策略網絡收斂;
所述的系統執行狀態具體過程為:
初始時刻再次輸入歷史機組出力值,合并成為智能體狀態向量;
所述的強化學習執行單元直接利用訓練完成的深度策略網絡生成智能體狀態向量對應的優化啟停向量;
在優化啟停向量基礎上由最優潮流解算單元生成對應機組出力;
再由當前時刻機組出力生成下一時刻的智能體狀態向量,交由強化學習執行單元生成下一時刻的優化啟停向量;
按時間順序依次逐個解出全部日前機組啟停表,從而實現日前機組啟停的自動優化配置。
3.根據權利要求2所述的系統,其特征在于,所述的深度確定性策略梯度算法通過重復計算策略的期望回報梯度的噪聲估計,然后依照得到梯度方向來對策略進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810054828.3/1.html,轉載請聲明來源鉆瓜專利網。





