[發明專利]一種基于離線強化學習的供熱控制方法及系統有效

申請號：	202210067515.8	申請日：	2022-01-20
公開（公告）號：	CN114484584B	公開（公告）日：	2022-11-11
發明（設計）人：	馬志軍;胡繼新;梁煒;何子峰;張康;成甜甜;曹玉璽	申請（專利權）人：	國電投峰和新能源科技（河北）有限公司;國家電投集團雄安能源有限公司
主分類號：	G05B13/02	分類號：	G05B13/02;F24D19/10;G06N20/00
代理公司：	北京中索知識產權代理有限公司 11640	代理人：	高海濤
地址：	050000 河北省***	國省代碼：	河北;13
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于離線強化學習供熱控制方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于離線強化學習的供熱控制方法，其特征在于，包括以下步驟：

S1、采集供熱數據，將供熱數據集輸入供熱模型，設定時間步長T，目標網絡更新率τ，小批量數據規模，最大擾動φ，采樣的動作數n，最小化權重λ，隨機參數θ₁，θ₂，ξ，ω；

初始化兩個Q矩陣：Q_θ1，Q_θ2；擾動模型ξ_φ，目標網絡Q_θ′1，Q_θ′2，目標擾動模型ξ_φ′，生成VAE正態分布模型G_ω＝{E_ω1，D_ω2}，

其中；

S2、從供熱數據集中采樣條交互數據獲得四元組（s，a，r，s′），以時間步長從t=1到T步進行循環，訓練G_ω模型；

基于正態分布，令μ，σ＝E_ω1（s，a），

；

s為狀態State，a為采取的行為action，s′為s執行a后的下一個狀態；參數用來表示新的值對更新后值所造成的影響大小，r為在狀態s下采取動作a后獲得的獎勵Reward；

從G_ω中根據數據集中的分布選出相似度最高的actions作為候選，采樣的動作數n用來表示候選actions的個數；

采樣n個動作actions：；

對所述采樣的每個動作action做擾動：；

根據Q網絡選出actions中價值最高的作為實際采取的action；

設定目標：

其中的λ參數用來控制未來不確定性的懲罰程度；

；

更新目標網絡：；；

循環直到兩個Q矩陣的最小值結束；

S3、將所述訓練后的G_ω模型部署至服務器，并通過定時任務，實施對一網和二網供水溫度進行預測，將預測結果下發至換熱站；并對G_ω模型的效果進行監控，定時根據G_ω模型的效果，對效果提升的G_ω模型進行更新訓練、對效果不佳的G_ω模型進行回滾；

所述S1步驟的所述G_ω模型的生成方法包括：針對不同渠道采集到的供熱數據，進行基礎的數據處理：包括數據清洗、數據聚合；

所述數據清洗的方法包括：基于橢圓模型Elliptic Envelope對數據中的異常值、突變點進行剔除，對缺失數據通過線性插值的方法進行數據填充；

所述數據聚合的方法包括：將不同頻率的采集的供熱數據進行時間戳對齊，形成完整的歷史數據。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于國電投峰和新能源科技（河北）有限公司;國家電投集團雄安能源有限公司，未經國電投峰和新能源科技（河北）有限公司;國家電投集團雄安能源有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210067515.8/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：動力電池充電時間預估方法、裝置、電子設備及存儲介質
下一篇：一種支持多數據源的地理信息分析方法及系統

同類專利

專利分類

G 物理

G05 控制；調節
G05B 一般的控制或調節系統；這種系統的功能單元；用于這種系統或單元的監視或測試裝置
G05B13-00 自適應控制系統，即系統按照一些預定的準則自動調整自己使之具有最佳性能的系統
G05B13-02 .電的
G05B13-04 ..包括使用模型或模擬器的

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】