[發明專利]基于深度強化學習無模型自適應混水溫度控制系統及方法有效
| 申請號: | 202010818036.6 | 申請日: | 2020-08-14 |
| 公開(公告)號: | CN111781840B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 黃文俊;蘭琦琦;解澤宇 | 申請(專利權)人: | 哈爾濱商業大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 哈爾濱市偉晨專利代理事務所(普通合伙) 23209 | 代理人: | 陳潤明 |
| 地址: | 150028 黑*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 模型 自適應 水溫 控制系統 方法 | ||
1.基于深度強化學習無模型自適應混水溫度控制方法,其特征在于:具體方法步驟如下:
步驟一,自定義混水系統的狀態空間和動作空間,建立動作網絡和價值網絡;
步驟二,根據與混水環境交互產生的數據訓練動作網絡和價值網絡,獲得混水調溫DDPG模型;
步驟三,在混水設備部署該DDPG模型,并與云服務器實時通信,異步更新設備模型參數,實現自適應學習新混水環境;
所述步驟一中,所述的動作網絡包括:動作網絡、目標動作網絡;所述的價值網絡包括判斷價值網絡、目標價值網絡混水系統的狀態空間和動作空間,所述混水系統的動作空間為調整撥片的轉動速度A∈[Vmax,Vmin],其中Vmax為調溫最大轉速,Vmin=-Vmax;
狀態空間S具體為:其中分別表示:混水前冷水端溫度、混水前冷水端壓強、混水前冷水端水流量、混水前熱水端溫度、混水前熱水端壓強、混水前熱水端水流量、當前混水后溫度,目標溫度;
定義回報函數:
其中Tt+1為下一時刻混水后測量溫度,為用戶設定溫度;
所述步驟二中,根據與混水系統環境交互產生的數據[st,at,rt,st+1]訓練動作網絡和價值網絡,采用軟更新算法更新目標動作網絡和目標價值網絡,從而獲得DDPG模型,其中st為t時刻的混水系統環境狀態,at為在t時刻,混水系統環境狀態為st時采用的調整撥片的轉動速度,rt為狀態為st時采用的調整撥片的轉動速度at使狀態變為st+1時收到的立即獎勵,st+1為t+1時刻的混水環境狀態;
所述步驟二中,根據與混水系統環境交互產生的數據[st,at,rt,st-1]訓練動作網絡和價值網絡包括:
基于與混水系統環境交互產生的數據[st,at,rt,st+1],根據評價損失函數更新價值網絡;
基于與混水系統環境交互產生的數據[st,at,rt,st+1],根據策略梯度更新動作網絡;
訓練過程具體包括采用記憶庫學習模式,定義記憶庫大小:M,單步訓練批數量:Mstep,
首先,初始化各種數據信息;
其次,執行決策部分,獲取當前狀態st,輸入動作網絡,其輸出為決策信息,即在當前冷熱水步進電機轉速Vt;
再次,運行環境,執行動作,并利用回報函數計算利潤rt,得到下一狀態t+1,將[st,at,rt,st+1]作為回合記憶存入記憶庫,當記憶庫存滿時,對記憶庫進行隨機抽樣,取Mstep條回合記憶,并對每條回合記憶進行學習;最后,判斷迭代次數是否滿足要求,若不滿足,則重復上述過程;
通過軟更新算法更新目標動作網絡和目標價值網絡的計算公式為:
θQ′=τθQ+(1-τ)θQ′
θμ′=τθμ+(1-τ)θμ′
其中τ=0.001,θQ′代表目標價值網參數,θQ代表價值網絡參數,θμ′代表目標動作網絡參數,θμ代表動作網絡參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱商業大學,未經哈爾濱商業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010818036.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種吻合器保護器
- 下一篇:一種鎳鈷鉬磷釩合金料的浸出分離方法





