[發明專利]一種基于安全模型強化學習的數據中心制冷控制算法有效
| 申請號: | 202111113046.0 | 申請日: | 2021-09-18 |
| 公開(公告)號: | CN113848711B | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 萬劍雄;段彥奪;李雷孝;云培研 | 申請(專利權)人: | 內蒙古工業大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 太原榮信德知識產權代理事務所(特殊普通合伙) 14119 | 代理人: | 楊凱;連慧敏 |
| 地址: | 010052 內蒙古自治*** | 國省代碼: | 內蒙古;15 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 安全 模型 強化 學習 數據中心 制冷 控制 算法 | ||
1.一種基于安全模型強化學習的數據中心制冷控制算法,其特征在于:包括下列步驟:
S1、將系統當前狀態輸入到策略網絡和風險模型中,分別生成最優行為和安全探索行為;
所述S1中分別生成最優行為和安全探索行為的方法為:系統轉換函數M通過系統動力學模型Mθ近似,風險r通過風險模型估計,同時系統動力學模型Mθ和風險模型分別是參數化為θ和的神經網絡,所述風險r由機架進口最高溫度與溫度閾值之間的差值來衡量,公式定義如下:
所述Δ是一個常量,并且Δ>0,所述為機架進口最高溫度,所述zTH為溫度閾值,在當前狀態下執行一個行為之后的安全性被定義為風險的倒數為了產生一個安全探索行為,首先形成一個動作集合由K個動作組成,所述其中中k∈{1,...,K},所述是在行為空間中均勻采樣得到的,然后將行為與概率相關聯,公式定義如下:
所述為概率;
最終的安全探索行為將使用分布從中采樣得到,并且具有較高風險的行為將以較小的概率抽樣,Δ控制較安全的行為的優先次序:采用較安全行動的概率隨Δ的減小而增加;
S2、通過ε-greedy策略形成執行行為;
所述S2中通過ε-greedy策略形成執行行為的方法為:在進行部署算法之前,系統動力學模型Mθ和風險模型都是使用歷史數據提前訓練過的,在每個時間步的開始,SafeCool通過ε-greedy策略選擇一個安全行為作為執行行為,其公式如下:
所述ω表示探索概率,在系統中∈=0.1表示系統以0.1的概率產生探索行為并執行,并且以0.9的概率由策略網絡產生行為πθ(zt)并執行;所述at為執行行為,使用策略網絡πθ來減少產生最優動作的計算時間,因為MPC控制器通常太耗時而不能在運行時應用,所述策略網絡πθ輸出當前系統模型的最佳安全動作,所述ε-greedy策略允許對行為空間進行安全感知的隨機探索;
S3、然后系統進入下一個狀態,將實際發生的系統過渡經驗存儲在經驗回放池中,以訓練系統模型,所述系統模型包括系統動力學模型和風險模型;
所述S3中訓練系統模型的方法為:在執行行為at之后,環境進入到下一個狀態zt+1,將四元組(zt,at,Rt,zt+1)存儲到經驗回放池D中,用于訓練系統動力學模型和風險模型;最后,Actor和Critic都將根據模型進行規劃更新,利用隨機梯度下降算法更新系統動力學模型和風險模型的參數;對于系統動力學模型通過預測的下一個狀態和真實的下一個狀態的均方差作為損失函數進行更新,公式定義如下:
所述Rt表示空調的能耗,所述Zt表示t時刻數據中心的溫度狀態,所述Zt+1表示t+1時刻數據中心的溫度狀態;所述表示從經驗回放池D中抽取大小為的經驗樣本;
同樣風險模型通過以下損失函數進行更新:
所述Zt表示t時刻數據中心的溫度狀態;
所述w(zt,at)定義如下:
S4、通過調用Plan函數實現學習最優策略和值函數;
所述S4中通過調用Plan函數實現學習最優策略和值函數的方法為:通過從經驗回放池均勻采樣的初始狀態滾動H步,獲得了相對于當前系統動力學模型Mθ的N個最優軌跡,然后,將最優軌跡和第一個狀態-動作對分別存儲在和中,策略網絡πφ通過最小化行為克隆損失函數在經驗回放池上訓練,策略網絡的損失函數定義如下:
所述a表示通過MPC得到的專家行為,需要策略網絡πθ(z)學習所述專家行為;
通過設置損失函數對模擬經驗中遇到的狀態進行價值網絡的訓練,損失函數定義如下:
所述x表示的軌跡,所述Dπ表示策略網絡用于訓練的經驗回放池;所述H為初始狀態滾動的步數;所述DV表示模擬經驗;
最后,在訓練完成后,模擬經驗被丟棄,另外在算法實現的時候,Plan函數是可并行化的,所述Plan函數將N個MPC問題分配到多個處理器中,以實現更快的規劃;
S5、通過MPCS函數解決MPC問題;
所述S5中通過MPCS函數解決MPC問題的方法為:所述MPCS函數通過更新H步高斯分布Nt(μt,Σt),t∈{0,...,H-1}的對角協方差矩陣,使得從高斯分布Nt中抽樣解是具有高概率的最優動作序列;將高斯分布Nt的均值初始化為πθ(zt),在每次CEM迭代過程中,MPCS函數通過滾動系統動力學模型和從高斯分布Nt中采樣行為生成L個候選行為序列;如果行為序列是安全的,即軌跡中沒有發現溫度違約現象,則將其加入到精英集合Λ中,只保留精英集合Λ中折扣獎勵值最高的e%行為序列,用來更新Nt的分布參數,更新分布參數公式如下:
所述和分別為精英集合分布參數,所述α為學習率,隨著CEM迭代次數的增加,所述高斯分布Nt趨于最優分布,從該分布中獲得最優行為序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于內蒙古工業大學,未經內蒙古工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111113046.0/1.html,轉載請聲明來源鉆瓜專利網。





