[發(fā)明專利]一種基于安全模型強化學習的數(shù)據(jù)中心制冷控制算法有效
| 申請?zhí)枺?/td> | 202111113046.0 | 申請日: | 2021-09-18 |
| 公開(公告)號: | CN113848711B | 公開(公告)日: | 2023-07-14 |
| 發(fā)明(設(shè)計)人: | 萬劍雄;段彥奪;李雷孝;云培研 | 申請(專利權(quán))人: | 內(nèi)蒙古工業(yè)大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 太原榮信德知識產(chǎn)權(quán)代理事務所(特殊普通合伙) 14119 | 代理人: | 楊凱;連慧敏 |
| 地址: | 010052 內(nèi)蒙古自治*** | 國省代碼: | 內(nèi)蒙古;15 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 安全 模型 強化 學習 數(shù)據(jù)中心 制冷 控制 算法 | ||
本發(fā)明屬于數(shù)據(jù)中心制冷控制算法技術(shù)領(lǐng)域,具體涉及一種基于安全模型強化學習的數(shù)據(jù)中心制冷控制算法,包括下列步驟:將系統(tǒng)當前狀態(tài)輸入到策略網(wǎng)絡和風險模型中,分別生成最優(yōu)行為和安全探索行為;通過ε?greedy策略形成執(zhí)行行為;然后系統(tǒng)進入下一個狀態(tài),將實際發(fā)生的系統(tǒng)過渡經(jīng)驗存儲在經(jīng)驗回放池中,以訓練系統(tǒng)模型,所述系統(tǒng)模型包括系統(tǒng)動力學模型和風險模型;通過調(diào)用Plan函數(shù)實現(xiàn)學習最優(yōu)策略和值函數(shù);通過MPCS函數(shù)解決MPC問題。本發(fā)明可以快速學習到接近最優(yōu)的控制策略,而不會嚴重違反溫度約束。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)中心制冷控制算法技術(shù)領(lǐng)域,具體涉及一種基于安全模型強化學習的數(shù)據(jù)中心制冷控制算法。
背景技術(shù)
數(shù)據(jù)中心冷卻管理問題可以描述為離散時間的馬爾可夫決策過程(MDP,MarkovDecision?Processes)。在每個時間步,冷卻控制器觀察當前系統(tǒng)狀態(tài),并選擇一個可執(zhí)行的行為,在不違反溫度約束的情況下盡可能地降低冷卻功耗。傳統(tǒng)的強化學習算法需要與環(huán)境進行大量的交互,以收集足夠的經(jīng)驗進行算法訓練。但是,在生產(chǎn)數(shù)據(jù)中心中,這是不可接受的,因為收斂到一個好的控制策略需要太多的時間,而且收斂前的性能無法保證。并且,強化學習算法的反復試錯性質(zhì)不適用于數(shù)據(jù)中心等關(guān)鍵任務設(shè)施。
發(fā)明內(nèi)容
針對上述傳統(tǒng)的強化學習算法需要與環(huán)境進行大量的交互的技術(shù)問題,本發(fā)明提供了一種效率高、誤差小、成本低的基于安全模型強化學習的數(shù)據(jù)中心制冷控制算法。
為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:
一種基于安全模型強化學習的數(shù)據(jù)中心制冷控制算法,包括下列步驟:
S1、將系統(tǒng)當前狀態(tài)輸入到策略網(wǎng)絡和風險模型中,分別生成最優(yōu)行為和安全探索行為;
S2、通過ε-greedy策略形成執(zhí)行行為;
S3、然后系統(tǒng)進入下一個狀態(tài),將實際發(fā)生的系統(tǒng)過渡經(jīng)驗存儲在經(jīng)驗回放池中,以訓練系統(tǒng)模型,所述系統(tǒng)模型包括系統(tǒng)動力學模型和風險模型;
S4、通過調(diào)用Plan函數(shù)實現(xiàn)學習最優(yōu)策略和值函數(shù);
S5、通過MPCS函數(shù)解決MPC問題。
所述S1中分別生成最優(yōu)行為和安全探索行為的方法為:系統(tǒng)轉(zhuǎn)換函數(shù)M通過系統(tǒng)動力學模型Mθ近似,風險r通過風險模型估計,同時系統(tǒng)動力學模型Mθ和風險模型分別是參數(shù)化為θ和的神經(jīng)網(wǎng)絡,所述風險r由機架進口最高溫度與溫度閾值之間的差值來衡量,公式定義如下:
所述Δ是一個常量,并且Δ>0,所述為機架進口最高溫度,所述zTH為溫度閾值,在當前狀態(tài)下執(zhí)行一個行為之后的安全性被定義為風險的倒數(shù)為了產(chǎn)生一個安全探索行為,首先形成一個動作集合A由K個動作組成,所述其中中k∈{1,...,K},所述是在行為空間中均勻采樣得到的,然后將行為與概率相關(guān)聯(lián),公式定義如下:
所述為概率;
最終的安全探索行為將使用分布從A中采樣得到,并且具有較高風險的行為將以較小的概率抽樣,Δ控制較安全的行為的優(yōu)先次序:采用較安全行動的概率隨Δ的減小而增加。
所述S2中通過ε-greedy策略形成執(zhí)行行為的方法為:在進行部署算法之前,系統(tǒng)動力學模型Mθ和風險模型都是使用歷史數(shù)據(jù)提前訓練過的,在每個時間步的開始,SafeCool通過ε-greedy策略選擇一個安全行為作為執(zhí)行行為,其公式如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于內(nèi)蒙古工業(yè)大學,未經(jīng)內(nèi)蒙古工業(yè)大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111113046.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





