[發(fā)明專利]基于深度強化學(xué)習(xí)無模型自適應(yīng)混水溫度控制系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 202010818036.6 | 申請日: | 2020-08-14 |
| 公開(公告)號: | CN111781840B | 公開(公告)日: | 2022-08-09 |
| 發(fā)明(設(shè)計)人: | 黃文俊;蘭琦琦;解澤宇 | 申請(專利權(quán))人: | 哈爾濱商業(yè)大學(xué) |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 哈爾濱市偉晨專利代理事務(wù)所(普通合伙) 23209 | 代理人: | 陳潤明 |
| 地址: | 150028 黑*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強化 學(xué)習(xí) 模型 自適應(yīng) 水溫 控制系統(tǒng) 方法 | ||
基于深度強化學(xué)習(xí)無模型自適應(yīng)混水溫度控制系統(tǒng)及方法,屬于冷熱水混水溫度控制領(lǐng)域。本發(fā)明解決了現(xiàn)有的混水裝置手動調(diào)溫具有調(diào)溫困難,浪費水資源等問題。本發(fā)明包括動作網(wǎng)絡(luò)模塊和價值網(wǎng)絡(luò)模塊,本發(fā)明的具體方法步驟為:步驟一,自定義混水系統(tǒng)的狀態(tài)空間和動作空間,建立動作網(wǎng)絡(luò)和價值網(wǎng)絡(luò);步驟二,根據(jù)與混水環(huán)境交互產(chǎn)生的數(shù)據(jù)訓(xùn)練動作網(wǎng)絡(luò)和價值網(wǎng)絡(luò),獲得混水調(diào)溫DDPG模型;步驟三,在混水設(shè)備部署該DDPG模型,并與云服務(wù)器實時通信,異步更新設(shè)備模型參數(shù),實現(xiàn)自適應(yīng)學(xué)習(xí)新混水環(huán)境。本發(fā)明的溫度控制系統(tǒng)及方法可自適應(yīng)使用環(huán)境,且對環(huán)境因素有很強的適應(yīng)性,并且讓混水系統(tǒng)可靠和精準(zhǔn)。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于深度強化學(xué)習(xí)無模型自適應(yīng)混水溫度控制系統(tǒng)及方法,屬于冷熱水混水溫度控制領(lǐng)域。
背景技術(shù)
傳統(tǒng)的混水裝置中,大多采用手動調(diào)溫的方式,具有調(diào)溫困難、浪費水資源等問題,而市面上的一些混水智能恒溫系統(tǒng)通常采用的是固定的算法,其問題在于不能適配不同的環(huán)境,存在可靠性差和精度差等問題。
大多數(shù)現(xiàn)有的控制研究工作是關(guān)于單變量PID控制的,有關(guān)它的理論及設(shè)計已經(jīng)很好地建立、理解并且實際應(yīng)用。但是整個多變量PID系統(tǒng)還不成功,而大多數(shù)的工業(yè)過程在本質(zhì)上是多變量的。
傳統(tǒng)經(jīng)典PID算法需要手動調(diào)整PID參數(shù),而傳統(tǒng)混水設(shè)備在使用過程中面臨水溫水壓等環(huán)境因素各不相同,無法根據(jù)不同設(shè)備自動調(diào)整PID參數(shù)。
針對無模型自適應(yīng)學(xué)習(xí),當(dāng)前強化學(xué)習(xí)中的一個重要分支-深度確定性梯度下降(Deep Deterministic Policy Gradient,DDPG)提供了很好的解決方案,因此,本發(fā)明基于DDPG算法提出了一種基于深度強化學(xué)習(xí)的無模型自適應(yīng)混水溫度控制方法及系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明解決了目前現(xiàn)有的混水裝置手動調(diào)溫具有調(diào)溫困難、浪費水資源等問題,本發(fā)明公開了“基于深度強化學(xué)習(xí)無模型自適應(yīng)混水溫度控制系統(tǒng)及方法”。在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。
本發(fā)明的技術(shù)方案:
基于深度強化學(xué)習(xí)無模型自適應(yīng)混水溫度控制系統(tǒng),包括動作網(wǎng)絡(luò)模塊和價值網(wǎng)絡(luò)模塊;
動作網(wǎng)絡(luò)模塊包括估計網(wǎng)絡(luò)模塊和評價目標(biāo)網(wǎng)絡(luò)模塊;
動作網(wǎng)絡(luò)模塊用于定義混水系統(tǒng)的狀態(tài)空間和動作空間;
價值網(wǎng)絡(luò)模塊用于判斷評價網(wǎng)絡(luò)環(huán)境;
動作網(wǎng)絡(luò)模塊和價值網(wǎng)絡(luò)模塊用于進行環(huán)境交互獲得DDPG模型。
基于深度強化學(xué)習(xí)無模型自適應(yīng)混水溫度控制方法,是基于深度強化學(xué)習(xí)無模型自適應(yīng)混水溫度控制系統(tǒng)實現(xiàn)的,具體方法步驟如下:
步驟一,自定義混水系統(tǒng)的狀態(tài)空間和動作空間,建立動作網(wǎng)絡(luò)和價值網(wǎng)絡(luò);
步驟二,根據(jù)與混水環(huán)境交互產(chǎn)生的數(shù)據(jù)訓(xùn)練動作網(wǎng)絡(luò)和價值網(wǎng)絡(luò),獲得混水調(diào)溫DDPG模型;
步驟三,在混水設(shè)備部署該DDPG模型,并與云服務(wù)器實時通信,異步更新設(shè)備模型參數(shù),實現(xiàn)自適應(yīng)學(xué)習(xí)新混水環(huán)境。
進一步的,步驟一中,所述的動作網(wǎng)絡(luò)包括:動作網(wǎng)絡(luò)、目標(biāo)動作網(wǎng)絡(luò);所述的價值網(wǎng)絡(luò)包括判斷價值網(wǎng)絡(luò)、目標(biāo)價值網(wǎng)絡(luò)混水系統(tǒng)的狀態(tài)空間和動作空間,所述混水系統(tǒng)的動作空間為調(diào)整撥片的轉(zhuǎn)動速度A∈[Vmax,Vmin],其中Vmax為調(diào)溫最大轉(zhuǎn)速,Vmin=-Vmax;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱商業(yè)大學(xué),未經(jīng)哈爾濱商業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010818036.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種吻合器保護器
- 下一篇:一種鎳鈷鉬磷釩合金料的浸出分離方法
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





