[發明專利]一種基于離線強化學習的供熱控制方法及系統有效
| 申請號: | 202210067515.8 | 申請日: | 2022-01-20 |
| 公開(公告)號: | CN114484584B | 公開(公告)日: | 2022-11-11 |
| 發明(設計)人: | 馬志軍;胡繼新;梁煒;何子峰;張康;成甜甜;曹玉璽 | 申請(專利權)人: | 國電投峰和新能源科技(河北)有限公司;國家電投集團雄安能源有限公司 |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02;F24D19/10;G06N20/00 |
| 代理公司: | 北京中索知識產權代理有限公司 11640 | 代理人: | 高海濤 |
| 地址: | 050000 河北省*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 離線 強化 學習 供熱 控制 方法 系統 | ||
1.一種基于離線強化學習的供熱控制方法,其特征在于,包括以下步驟:
S1、采集供熱數據,將供熱數據集輸入供熱模型,設定時間步長
初始化兩個
其中;
S2、從供熱數據集中采樣條交互數據獲得四元組(
基于正態分布,令μ,σ=
;
;
從
采樣n個動作actions:;
對所述采樣的每個動作action做擾動:;
根據
設定目標:
其中的λ參數用來控制未來不確定性的懲罰程度;
;
;
更新目標網絡:;;
循環直到兩個Q矩陣的最小值結束;
S3、將所述訓練后的
所述S1步驟的所述
所述數據清洗的方法包括:基于橢圓模型Elliptic Envelope對數據中的異常值、突變點進行剔除,對缺失數據通過線性插值的方法進行數據填充;
所述數據聚合的方法包括:將不同頻率的采集的供熱數據進行時間戳對齊,形成完整的歷史數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國電投峰和新能源科技(河北)有限公司;國家電投集團雄安能源有限公司,未經國電投峰和新能源科技(河北)有限公司;國家電投集團雄安能源有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210067515.8/1.html,轉載請聲明來源鉆瓜專利網。





