[發(fā)明專利]面向負載-時間窗口的基于DQN云軟件資源自適應(yīng)分配方法在審
| 申請?zhí)枺?/td> | 202111472211.1 | 申請日: | 2021-12-03 |
| 公開(公告)號: | CN114138416A | 公開(公告)日: | 2022-03-04 |
| 發(fā)明(設(shè)計)人: | 陳星;張銘豪;楊立堅;陳佳雯 | 申請(專利權(quán))人: | 福州大學(xué) |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 福州元創(chuàng)專利商標代理有限公司 35100 | 代理人: | 陳明鑫;蔡學(xué)俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 負載 時間 窗口 基于 dqn 軟件 資源 自適應(yīng) 分配 方法 | ||
本發(fā)明涉及一種面向負載?時間窗口的基于DQN云軟件資源自適應(yīng)分配方法。大多數(shù)現(xiàn)有方法只考慮工作負載的當前狀況,因此無法很好地適應(yīng)受工作負載波動影響的真實云環(huán)境。本發(fā)明方法考慮了資源分配過程中的當前和未來工作負載。具體而言,基于工作負載時間窗口的原始Deep Q?Network(DQN)管理操作預(yù)測模型經(jīng)過培訓(xùn),該模型可用于預(yù)測不同系統(tǒng)狀態(tài)下的適當管理操作。接下來,設(shè)計了一種新的反饋控制機制,通過迭代執(zhí)行管理操作來構(gòu)建當前系統(tǒng)狀態(tài)下的客觀資源分配計劃。大量的仿真結(jié)果表明,該DRAW方法生成的管理操作的預(yù)測精度可以達到90.69%。此外,DRAW可以實現(xiàn)最佳/接近最佳性能,并在不同情況下比其他經(jīng)典方法高出3~13%。
技術(shù)領(lǐng)域
本發(fā)明涉及一種面向負載-時間窗口的基于DQN云軟件資源自適應(yīng)分配方法。
背景技術(shù)
多年來,基于云的廣泛應(yīng)用軟件服務(wù)快速增長。然而,由于云環(huán)境中系統(tǒng)狀態(tài)復(fù)雜多變,在為基于云的軟件服務(wù)進行資源分配時,要在QoS和資源成本之間實現(xiàn)良好的權(quán)衡是非常具有挑戰(zhàn)性的。為了應(yīng)對這一挑戰(zhàn),為基于云的軟件服務(wù)設(shè)計一種自適應(yīng)資源分配方法至關(guān)重要。有一些經(jīng)典的方法,例如基于規(guī)則的、控制理論的和基于機器學(xué)習(ML)的方法,可以在一定程度上解決云資源分配的問題。基于規(guī)則的方法需要為軟件服務(wù)定義各種規(guī)則,這導(dǎo)致規(guī)則設(shè)置的巨大成本并限制其在動態(tài)云環(huán)境中的應(yīng)用。此外,控制理論方法需要大量迭代來確定有效的資源分配計劃,如果虛擬機(VM)頻繁中斷,這可能會導(dǎo)致額外成本。此外,基于ML的方法使云系統(tǒng)能夠從歷史數(shù)據(jù)中學(xué)習特定領(lǐng)域知識以優(yōu)化資源分配。然而,在現(xiàn)實世界的云環(huán)境中,很難收集足夠的訓(xùn)練數(shù)據(jù)來支持基于ML的方法。因此,這些基于云的軟件服務(wù)資源分配的經(jīng)典方法可能不太適合具有可變工作負載和服務(wù)請求的現(xiàn)實世界云環(huán)境。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種面向負載-時間窗口的基于DQN云軟件資源自適應(yīng)分配方法,
為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種面向負載-時間窗口的基于DQN云軟件資源自適應(yīng)分配方法,包括如下步驟:
步驟S1、通過歷史運行數(shù)據(jù)構(gòu)造DQN模型的訓(xùn)練集,訓(xùn)練集包括某時刻的負載時間窗口、虛擬機資源配置、系統(tǒng)QoS值以及該時刻的目標資源分配方案,根據(jù)訓(xùn)練集,使用DQN算法訓(xùn)練管理操作Q值預(yù)測模型,管理操作Q值預(yù)測模型可以評估不同系統(tǒng)狀態(tài)下管理操作的Q值;
步驟S2、在運行時,使用步驟S1中得到的管理操作Q值預(yù)測模型,根據(jù)當前負載時間窗口、當前虛擬機資源配置以及相應(yīng)的QoS,預(yù)測不同管理操作的Q值,然后,通過比較不同管理操作的Q值來選擇管理操作;重復(fù)上述過程,通過反饋迭代逐步找到目標資源分配方案。
在本發(fā)明一實施例中,步驟S1中,使用DQN算法訓(xùn)練管理操作Q值預(yù)測模型的具體實現(xiàn)方式如下:
首先,隨機初始化網(wǎng)絡(luò)參數(shù);其次,使用DQN算法對每條訓(xùn)練數(shù)據(jù)管理操作的Q值進行評估,訓(xùn)練過程持續(xù),直到遍歷完成所有訓(xùn)練集;第三,根據(jù)訓(xùn)練數(shù)據(jù)初始化scur,如果初始狀態(tài)scur不是目標狀態(tài)sobj,則根據(jù)當前的Q值使用∈-greedy算法從動作空間A中選擇一個動作a;然后,通過使用公式(1)計算動作a的獎勵r;生成下一步對應(yīng)的狀態(tài),用s′表示;如果執(zhí)行動作a后,狀態(tài)不屬于合法狀態(tài)范圍,則跳過本輪訓(xùn)練;第四,使用mini-batch方法從重放內(nèi)存中隨機收集示例,并根據(jù)損失函數(shù)訓(xùn)練DQN來更新神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏差;每K步更新一次神經(jīng)網(wǎng)絡(luò)的參數(shù);然后,scur被s′替換,狀態(tài)轉(zhuǎn)換發(fā)生;最后,神經(jīng)網(wǎng)絡(luò)持續(xù)更新,直到所有數(shù)據(jù)集都訓(xùn)練完成;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111472211.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





