[發明專利]一種恒濕機智能控制方法及裝置有效
| 申請號: | 202111295458.0 | 申請日: | 2021-11-03 |
| 公開(公告)號: | CN114110824B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 張勇;郭達;羅丹峰;孫蘊琪;張晨曦;袁思雨 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | F24F3/14 | 分類號: | F24F3/14;F24F11/61;F24F11/64;G06N3/084;G06N3/0464;F24F110/20 |
| 代理公司: | 北京金咨知識產權代理有限公司 11612 | 代理人: | 薛海波 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機智 控制 方法 裝置 | ||
1.一種恒濕機智能控制方法,其特征在于,所述方法在智能控制器上運行,所述智能控制器連接指定空間內的分布式的多個濕度傳感器和多個恒濕機,所述方法包括:
獲取各濕度傳感器按照設定時間間隔采集得到的濕度值序列作為狀態空間的狀態參數,以及各恒濕機對應的濕度設定值序列和風檔設定值序列作為動作空間的動作參數;
采用預設強化學習模型根據各時間步狀態參數確定輸出相應的動作參數,并獲取各時間步對應動作參數下各恒濕機的功耗,根據所有濕度傳感器實際檢測到的濕度與目標設定值的歐氏距離計算出平均絕對濕度差,根據每個時間步所述平均絕對濕度差和所有恒濕機實際的功耗計算每個時間步的獎勵值,采用回放緩存區存儲各時間步對應的狀態參數、動作參數、功耗、獎勵值和目標濕度值;
在強化學習過程中,所述預設強化學習模型按照優先級對回放緩存區中的經驗數據進行采樣,采用神經網絡擬合所選擇的動作參數的所述獎勵值,所述神經網絡模型設置本地網絡用于計算當前時間步的預測價值并選擇價值最高的動作參數,設置目標網絡用于計算下一時間步的目標價值,所述本地網絡與所述目標網絡的結構相同,每間隔設定時長將所述本地網絡的參數更新至所述目標網絡;并且所述神經網絡將動作參數的預估獎勵值分解為僅與狀態有關的值函數部分以及與狀態和動作均相關的優勢函數部分,還引入高斯噪聲進行采樣干擾,將Dueling-DQN網絡與Noisy-DQN網絡結合得到Noisy?Dueling網絡,所述本地網絡和所述目標網絡均采用Noisy?Dueling網絡;基于所述預測價值、所述目標價值以及未來多個時間步的獎勵值構建損失函數,以最大化各時間步動作參數對應獎勵值之和為優化目標進行學習直至收斂;
其中,根據每個時間步所述平均絕對濕度差和所有恒濕機實際的功耗計算每個時間步的獎勵值,計算式為:
其中,α、β分別為平均絕對濕度差和風扇功耗的權重比例系數;
所述預設強化學習模型按照優先級對回放緩存區中的經驗數據進行采樣,包括:獲取各時間步狀態參數的誤差TD-error,各經驗數據被選擇的概率pt正比于所述TD-error,表達式為:
其中,Rt+1為t+1時間步的獎勵值,γt+1為t+1時間步的折扣因子,St+1為t+1時間步的狀態參數,St為t時間步的狀態參數,qθ(St,At)為所述本地網絡在狀態St下輸出價值最大的動作At預測價值,a′為基于本地網絡策略選擇的最大的預測價值對應的動作,為在選擇動作a′條件下所述目標網絡輸出的狀態St+1的目標價值,ω是優先級指數;
每間隔設定時長將所述本地網絡的參數更新至所述目標網絡,包括:利用所述本地網絡和所述目標網絡參數的凸組合對所述目標網絡的參數進行軟更新,所述目標網絡的更新頻率為1,更新表達式為:
Qt←τ×Ql+(1-τ)×Qt;
其中,τ是更新系數,Ql為所述本地網絡,Qt為所述目標網絡;
基于所述預測價值?、所述目標價值?以及未來多個時間步的獎勵值構建損失函數,包括:定義未來n個時間步的回報總和的公式為:
其中,表示第t時間步之后第k個時間步的折扣因子,Rt+k+1表示t+k+1時間步的獎勵值,n為計算的時間步的數量;
設置Loss損失函數為:
其中,表示第n*步的折扣因子,表示在未來第n*狀態下選擇最大價值對應的動作a′,是表示目標網絡在狀態下執行動作a′得到目標價值,qθ(St,At)表示本地網絡在狀態St下執行動作At帶來最大的本地價值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111295458.0/1.html,轉載請聲明來源鉆瓜專利網。





