[發明專利]基于深度強化學習的空調風量控制方法、裝置以及介質有效
| 申請號: | 201911040834.4 | 申請日: | 2019-10-30 |
| 公開(公告)號: | CN110781969B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 陳滿金;王琰;劉明洪;謝勇;黃海;吳永輝;吳忠云;張可洲;楊清水 | 申請(專利權)人: | 龍巖煙草工業有限責任公司;廈門理工學院 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06N3/092;G06N20/00;F24F11/72;F24F11/74;G05B15/02 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 方亮 |
| 地址: | 364021 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 空調 風量 控制 方法 裝置 以及 介質 | ||
本公開提供了一種基于深度強化學習的空調風量控制方法、裝置以及存儲介質,其中的方法包括:建立狀態預測模型,使用狀態預測模型獲得外界預測狀態;根據外界預測狀態生成訓練樣本,基于訓練樣本對長期回報值預測網絡模型進行訓練,用于對長期回報值預測網絡模型的參數θ進行調整;通過長期回報值預測網絡模型并基于當前狀態預測下一時刻的空調執行行動,用以對于空調風量進行控制;本公開的方法、裝置以及存儲介質,能夠對卷煙企業空調進行自動控制,實現損失最小化,可以提高空調溫濕度預測的準確率和空調開關切換的穩定性,能夠實現節能降耗,能夠減少企業的成本并提高產品質量。
技術領域
本發明涉及煙草自動化控制技術領域,尤其涉及一種基于深度強化學習的空調風量控制方法、裝置以及存儲介質。
背景技術
卷煙企業所用空調多是變風量空調,其原理是固定送風溫度,通過改變風量以滿足室內的溫濕度需求。卷煙企業的卷接包車間需要恒溫恒濕環境,溫度要求20±2℃,濕度60±5%RH。動力車間為了滿足卷接包車間的環境工藝要求,操作工作人員根據溫濕度采集數據進行空調的開啟,這樣容易造成卷接包車間的工藝環境波動大,過度開啟空調數量也會造成能源浪費。
發明內容
有鑒于此,本發明要解決的一個技術問題是提供一種基于深度強化學習的空調風量控制方法、裝置以及存儲介質。
根據本公開的一個方面,提供一種基于深度強化學習的空調風量控制方法,包括:建立狀態預測模型,使用所述狀態預測模型獲得外界預測狀態;其中,所述外界預測狀態包括:新風溫濕度和室內溫濕度;根據所述外界預測狀態生成訓練樣本,基于訓練樣本對長期回報值預測網絡模型進行訓練,用于對所述長期回報值預測網絡模型的參數θ進行調整;通過所述長期回報值預測網絡模型并基于當前狀態預測下一時刻的空調執行行動,用以對于空調風量進行控制;其中,所述當前狀態包括:環境狀態和對應的空調執行行動。
可選地,所述根據所述外界預測狀態生成訓練樣本包括:根據所述外界預測狀態生成所述環境狀態;其中,所述環境狀態包括:空調狀態Ct、外界狀態Ot和偏離狀態Dt,所述空調狀態Ct為當前空調是開或關的狀態,所述外界狀態Ot為新風溫濕度與室內溫濕度的差值,所述偏離狀態Dt為預定溫濕度與室內溫濕度之間的差值;獲得t時刻的狀態St;其中,所述St包括多個所述環境狀態和對應的空調執行行動;將所述St作為所述長期回報值預測網絡模型的輸入,得到在所述St下的Q值為Q*(St,at,θ+),其中,at為在t時刻的空調執行行動,θ+為在t時刻的所述長期回報值預測網絡模型的參數;根據所述at計算在t時刻的回報值rt和在t+1時刻的下一狀態St+1,生成樣本(St,at,St+1,rt),并基于樣本生成訓練樣本池。
可選地,所述基于訓練樣本對長期回報值預測網絡模型進行訓練包括:隨機從所述訓練樣本池中獲得M個樣本,將所述M個樣本中的每個樣本的所述St+1作為所述長期回報值預測網絡模型的輸入,得到在所述St+1下的Q值為Q*(St+1,at+1,θ-);其中,St+1為在t+1時刻的下一狀態,at+1為在t+1時刻的空調執行行動,θ-為在t+1時刻的所述長期回報值預測網絡模型的參數;基于在所述St下的Q值和在所述St+1下的Q值,對所述長期回報值預測網絡模型的參數θ進行迭代調整。
可選地,所述基于在所述St下的Q值和在所述St+1下的Q值,對所述長期回報值預測網絡模型的參數θ進行迭代調整包括:確定目標Q值=rt+γmax?Q*(St+1,at+1,θ-);其中,rt是在所述St下的當前動作回報,γ是折扣系數;確定所述目標Q值與Q*(St+1,at+1,θ-)之間的損失函數,在損失函數取得最小值時,更新所述長期回報值預測網絡模型的參數θ。
可選地,確定與溫濕度相對誤差相對應的第一損失函數Le;確定與空調開關切換頻率相對應的第二損失函數Ls;基于所述第一損失函數Le和所述第二損失函數Ls獲得所述回報函數;根據所述回報函數計算所述rt。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于龍巖煙草工業有限責任公司;廈門理工學院,未經龍巖煙草工業有限責任公司;廈門理工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911040834.4/2.html,轉載請聲明來源鉆瓜專利網。





