[發明專利]面向負載-時間窗口的基于DQN云軟件資源自適應分配方法在審
| 申請號: | 202111472211.1 | 申請日: | 2021-12-03 |
| 公開(公告)號: | CN114138416A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 陳星;張銘豪;楊立堅;陳佳雯 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 陳明鑫;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 負載 時間 窗口 基于 dqn 軟件 資源 自適應 分配 方法 | ||
1.一種面向負載-時間窗口的基于DQN云軟件資源自適應分配方法,其特征在于,包括如下步驟:
步驟S1、通過歷史運行數據構造DQN模型的訓練集,訓練集包括某時刻的負載時間窗口、虛擬機資源配置、系統QoS值以及該時刻的目標資源分配方案,根據訓練集,使用DQN算法訓練管理操作Q值預測模型,管理操作Q值預測模型可以評估不同系統狀態下管理操作的Q值;
步驟S2、在運行時,使用步驟S1中得到的管理操作Q值預測模型,根據當前負載時間窗口、當前虛擬機資源配置以及相應的QoS,預測不同管理操作的Q值,然后,通過比較不同管理操作的Q值來選擇管理操作;重復上述過程,通過反饋迭代逐步找到目標資源分配方案。
2.根據權利要求1所述的面向負載-時間窗口的基于DQN云軟件資源自適應分配方法,其特征在于,步驟S1中,使用DQN算法訓練管理操作Q值預測模型的具體實現方式如下:
首先,隨機初始化網絡參數;其次,使用DQN算法對每條訓練數據管理操作的Q值進行評估,訓練過程持續,直到遍歷完成所有訓練集;第三,根據訓練數據初始化scur,如果初始狀態scut不是目標狀態sobj,則根據當前的Q值使用∈-greedy算法從動作空間A中選擇一個動作a;然后,通過使用公式(1)計算動作a的獎勵r;生成下一步對應的狀態,用s′表示;如果執行動作a后,狀態不屬于合法狀態范圍,則跳過本輪訓練;第四,使用mini-batch方法從重放內存中隨機收集示例,并根據損失函數訓練DQN來更新神經網絡的權重和偏差;每K步更新一次神經網絡的參數;然后,scur被s′替換,狀態轉換發生;最后,神經網絡持續更新,直到所有數據集都訓練完成;
其中sobj定義為一個客觀的資源分配計劃,動作a(a∈A)代表一個管理操作,如果在當前資源分配方案scur下采取行動a找到目標資源分配方案sobj,則獲得10的獎勵;如果不在可選的狀態集合sopt中的未知資源分配方案由在當前資源分配方案scur下采取行動a,則獲得-1的獎勵;在其他情況下,采取任何行動都不會產生獎勵。
3.根據權利要求2所述的面向負載-時間窗口的基于DQN云軟件資源自適應分配方法,其特征在于,使用mini-batch方法從重放內存中隨機收集示例,即:
隨機抽取經驗池D中的m個樣本,并計算目標值:
其中,scur表示初始狀態,sobj表示目標狀態,rj是獎勵值,γ是折扣因子,是在下一個狀態sj+1選擇動作a′獲得的最大Q值,ω′是神經網絡的權重。
4.根據權利要求3所述的面向負載-時間窗口的基于DQN云軟件資源自適應分配方法,其特征在于,損失函數如下:
其中,Q(s,a;ω)是當前的狀態s選擇動作a獲得的Q值,ω為神經網絡的權重。
5.根據權利要求1所述的面向負載-時間窗口的基于DQN云軟件資源自適應分配方法,其特征在于,步驟S2具體實現如下:
首先,在資源調整過程中,算法根據輸入的當前運行時環境狀態,調用管理操作Q值預測模型來獲取所有管理操作對應的Q值集合Q_values;如果管理操作被認為是非法的,相應的Q值將被I索引;接下來,如果所有合法管理操作的Q值小于或等于預定義的閾值P,或者執行管理操作后的資源配置曾出現,認為找到了客觀的資源分配方案,不需要再進行任何管理操作;否則,將執行具有最小Q值的管理操作,并不斷尋求客觀的資源分配計劃;同時,將每一步的資源配置都保存在VM_List中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111472211.1/1.html,轉載請聲明來源鉆瓜專利網。





