[發明專利]一種基于深度強化學習的云作業調度方法有效
| 申請號: | 202011578884.0 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112698911B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 李啟銳;彭志平;崔得龍;林建鵬;何杰光 | 申請(專利權)人: | 廣東石油化工學院 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06F9/48;G06F9/50;G06N20/00 |
| 代理公司: | 廣州潤禾知識產權代理事務所(普通合伙) 44446 | 代理人: | 林偉斌 |
| 地址: | 525000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 作業 調度 方法 | ||
1.一種基于深度強化學習的云作業調度方法,其特征在于,包括:
接收用戶發送的用戶作業;
對用戶作業進行解耦,獲取就緒作業集;
通過作業調度器對就緒作業集進行調度;所述調度為按照調度策略采取動作,將就緒作業集中的作業部署到相應的虛擬機上;所述動作為就緒作業集中的作業的虛擬機分配方式;
通過虛擬機執行作業,并且返回執行結果;
收集訓練樣本,建立經驗池;所述訓練樣本用于存儲就緒作業集狀態、虛擬機狀態、動作和回報值;所述回報值為采取動作獲得的回報;
判斷經驗池內的訓練樣本數量是否小于閾值,若小于閾值則重新接收用戶發送的用戶作業,否則利用經驗池中的訓練樣本優化作業調度器;
利用優化后的作業調度器進行調度;
所述調度的目標函數為:
所述J為用戶作業;所述π為調度策略;所述為第k個用戶的第i個作業;所述為第k個用戶的第i個作業的完工時間;所述所述所述為作業傳輸到虛擬機的數據量;所述Lk(i)為作業的長度;所述為作業被執行后返回執行結果的數據量;所述為作業的執行時間;所述為作業的傳輸時間;所述為作業向等待時間;所述等待時間為在通過作業調度器對就緒作業集進行調度之后,通過虛擬機執行作業,并且返回執行結果之前,虛擬機計算能力不足,被調度的作業進入虛擬機等待隊列等待被執行的時間;
所述所述為分配給作業的MIPS;所述c為兆字節到字節的轉換系數;所述p為虛擬機完成每單位長度作業的CPU周期;所述所述為作業向虛擬機傳輸數據的時間;所述為作業被執行后,返回處理結果的傳輸時間;所述所述Jj為第j個作業;所述q為等待隊列中作業之前所有作業的集合;所述tj,e為第j個作業的執行時間。
2.根據權利要求1所述的一種基于深度強化學習的云作業調度方法,其特征在于,所述所述所述作業的傳輸數據量為所述為虛擬機分配給每個作業的帶寬資源。
3.根據權利要求2所述的一種基于深度強化學習的云作業調度方法,其特征在于,所述所述b為虛擬機的帶寬資源;所述為在時隙T傳輸到虛擬機的作業數。
4.根據權利要求3所述的一種基于深度強化學習的云作業調度方法,其特征在于,所述訓練樣本為(st,αt,rt,st+1);所述就緒作業集狀態為sJ={t1,d1,t2,d2,……,tn,dn};所述虛擬機狀態為所述動作由動作空間A存儲,A={α1,α2,……,αn};所述回報值由回報函數R計算,所述st和st+1分別為時間步t和時間步t+1的狀態;所述狀態由狀態空間S存儲,S={sJ,sVM};所述αt為時間步t從動作空間A中選取的動作;所述rt為時間步t回報函數R計算的回報值;所述就緒作業集狀態sJ中的ti和di,分別表示就緒作業集中第i個作業的執行時間和傳輸到虛擬機的數據量;所述n為就緒作業集的作業數量;所述虛擬機狀態sVM中的和分別表示當前時間步第x個虛擬機中剩余的計算能力和等待執行的作業數量;所述m為虛擬機的數量;所述動作空間A中的動作αi表示就緒作業集中第i個作業的虛擬機分配方式;所述動作αi的可選項為m+1;所述和分別為第x個虛擬機已執行的作業數量和等待執行的作業數量。
5.根據權利要求上4所述的一種基于深度強化學習的云作業調度方法,其特征在于,所述優化作業調度器的目標函數為:
所述γ為折扣因子,γ∈[0,1]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東石油化工學院,未經廣東石油化工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011578884.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種有效降低功耗的多位模數轉換器
- 下一篇:一種多層環形機殼同軸組對焊接工裝





