[發(fā)明專利]基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心能耗優(yōu)化控制方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210052986.1 | 申請(qǐng)日: | 2022-01-18 |
| 公開(公告)號(hào): | CN114511208A | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計(jì))人: | 馮炫;王為源;嚴(yán)寧;潘冬;蘭巍 | 申請(qǐng)(專利權(quán))人: | 陜西智引科技有限公司 |
| 主分類號(hào): | G06Q10/06 | 分類號(hào): | G06Q10/06;G06Q10/04;G06Q50/06;G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 濟(jì)南譽(yù)琨知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 37278 | 代理人: | 袁彤彤 |
| 地址: | 710000 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 深度 強(qiáng)化 學(xué)習(xí) 數(shù)據(jù)中心 能耗 優(yōu)化 控制 方法 | ||
1.一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心能耗優(yōu)化控制方法,其特征在于,包括以下有效步驟:
a、建立深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò):所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)包括策略網(wǎng)絡(luò)Actor,評(píng)估網(wǎng)絡(luò)Critic1,評(píng)估網(wǎng)絡(luò)Critic2以及對(duì)應(yīng)的3個(gè)目標(biāo)網(wǎng)絡(luò)Actor-Target、Critic1-Target和Critic2-Target,其中,所述Actor網(wǎng)絡(luò)和Actor-Target網(wǎng)絡(luò)之間,Critic1網(wǎng)絡(luò)、Critic2網(wǎng)絡(luò)、Critic1-Target網(wǎng)絡(luò)和Critic2-Target網(wǎng)絡(luò)之間有相同的網(wǎng)絡(luò)結(jié)構(gòu)相同、參數(shù)不同;
b、確定深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)函數(shù)計(jì)算方法;
c、深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)初始化:通過隨機(jī)參數(shù)初始化策略網(wǎng)絡(luò)Actor網(wǎng)絡(luò),評(píng)估網(wǎng)絡(luò)Critic1網(wǎng)絡(luò),評(píng)估網(wǎng)絡(luò)Critic2網(wǎng)絡(luò)的參數(shù)θ1,θ2;以及目標(biāo)網(wǎng)絡(luò)Actor-target網(wǎng)絡(luò),Critic1-target網(wǎng)絡(luò),Critic2-target網(wǎng)絡(luò)的參數(shù)θ1-,θ2-;初始化經(jīng)驗(yàn)回放內(nèi)容大小M;
d、深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練:對(duì)于每次訓(xùn)練,根據(jù)當(dāng)前策略和噪音選擇負(fù)載分配和冷卻點(diǎn)溫度選擇動(dòng)作,然后執(zhí)行該動(dòng)作獲得下一狀態(tài)和獎(jiǎng)勵(lì),并將該存儲(chǔ)狀態(tài)轉(zhuǎn)移值放到經(jīng)驗(yàn)回放內(nèi)存M中,當(dāng)M滿時(shí),從經(jīng)驗(yàn)回放中隨機(jī)采樣,獲得N個(gè)狀態(tài)轉(zhuǎn)移值,并得到Critic1-target網(wǎng)絡(luò)和Critic2-target網(wǎng)絡(luò)中的和并得到最小target值:然后計(jì)算td_error,最后使用td_error更新Critic1網(wǎng)絡(luò)和Critic2網(wǎng)絡(luò),其中,td_error的計(jì)算方法如下:
其中,λ為獎(jiǎng)勵(lì)函數(shù)值;γ為折扣因子;θ1為評(píng)估網(wǎng)絡(luò)1的目標(biāo)網(wǎng)絡(luò)Critic1_Target的網(wǎng)絡(luò)參數(shù),θ2為評(píng)估網(wǎng)絡(luò)2的目標(biāo)網(wǎng)絡(luò)Critic2_Target的網(wǎng)絡(luò)參數(shù),2個(gè)目標(biāo)網(wǎng)絡(luò)初始值不同,計(jì)算目標(biāo)Q值不同;
e、重復(fù)執(zhí)行d步驟完成深度強(qiáng)化模型的訓(xùn)練,得到關(guān)于負(fù)載分配和冷卻系統(tǒng)控制的最優(yōu)策略網(wǎng)絡(luò)模型。
2.根據(jù)權(quán)利要求1所述的基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心能耗優(yōu)化控制方法,其特征在于,所述b步驟中,狀態(tài)函數(shù)的計(jì)算方法為:狀態(tài)向量為天氣溫度Toutdoor(t)和數(shù)據(jù)中心總的負(fù)載量J(t)組成的元組:[天氣溫度Toutdoor(t),數(shù)據(jù)中心總的負(fù)載量J(t)]。
3.根據(jù)權(quán)利要求2所述的基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心能耗優(yōu)化控制方法,其特征在于,所述b步驟中,動(dòng)作函數(shù)的計(jì)算方法為:動(dòng)作向量為數(shù)據(jù)中心每個(gè)區(qū)域的負(fù)載量ji(t)和每個(gè)區(qū)域的冷卻點(diǎn)溫度組成的元組,動(dòng)作的個(gè)數(shù)由數(shù)據(jù)中心的區(qū)域個(gè)數(shù)決定,動(dòng)作向量包括以下2*n個(gè)動(dòng)作:[數(shù)據(jù)中心第i個(gè)區(qū)域的冷卻系統(tǒng)冷卻點(diǎn)溫度數(shù)據(jù)中心第i個(gè)區(qū)域的負(fù)載情況ji(t)]。
4.根據(jù)權(quán)利要求3所述的基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心能耗優(yōu)化控制方法,其特征在于,所述b步驟中,獎(jiǎng)勵(lì)函數(shù)的計(jì)算方法為:獎(jiǎng)勵(lì)函數(shù)計(jì)算如下:其中m為動(dòng)作考慮延遲的時(shí)間步步數(shù),kj是當(dāng)前Lt值在rt中所占的權(quán)重,rt指的是當(dāng)前函數(shù)值,Lt是未來時(shí)間步的函數(shù)值,然后利用未來時(shí)間步占比當(dāng)前函數(shù)值的權(quán)重以及所延遲的時(shí)間步步數(shù)計(jì)算。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于陜西智引科技有限公司,未經(jīng)陜西智引科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210052986.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預(yù)定,例如用于門票、服務(wù)或事件的
G06Q10-04 .預(yù)測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項(xiàng)目管理,例如組織、規(guī)劃、調(diào)度或分配時(shí)間、人員或機(jī)器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲(chǔ)、裝貨、配送或運(yùn)輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動(dòng)化,例如電子郵件或群件的計(jì)算機(jī)輔助管理
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





