[發明專利]云環境下基于強化學習的超啟發式任務調度方法及系統有效
| 申請號: | 202110705390.2 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113448687B | 公開(公告)日: | 2022-07-26 |
| 發明(設計)人: | 周風余;孫倡;尹磊;劉進 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;G06F9/48;G06N3/04;G06N3/08 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張慶騫 |
| 地址: | 250061 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 環境 基于 強化 學習 啟發式 任務 調度 方法 系統 | ||
1.一種云環境下基于強化學習的超啟發式任務調度方法,其特征在于,包括:
獲取云環境下任務調度相關信息及虛擬機運行參數,并初始化解集及高級啟發式方法的各項參數;其中,解集中的元素由一系列設定長度的序列值構成,序列值為相應任務在各個虛擬機上運行消耗的時間;
隨機選擇低級啟發式方法,并初始化相應低級啟發式方法參數,直至達到當前低級啟發式方法迭代停止條件,更新候選解解集,得到當前的最優解;
計算當前低級啟發式方法迭代的獎勵值,更新獎勵表;
根據獎勵表繼續選擇低層啟發式方法,遷移候選解,直至得到最優解,以實現最短的時間內完成云環境下任務調度工作;
當前低級啟發式方法迭代所獲獎勵的第一部分由當前迭代結果的makespan和上一次迭代得到的makespan所決定;
當前迭代結果R1(s,a)為:
R1(s,a)=1/1+e-σ×makespan/Nnum
其中a表示動作信息,s表示狀態信息,由makespan和UDCS的值區間組成,σ表示常數,Nnum表示任務數量,makespan表示任務完成時間,UDCS表示候選解種群多樣性。
2.如權利要求1所述的云環境下基于強化學習的超啟發式任務調度方法,其特征在于,在遷移候選解時,只保留滿足差分條件的最優解和5個次優解。
3.如權利要求1所述的云環境下基于強化學習的超啟發式任務調度方法,其特征在于,50%的候選解將由傳遞解的隨機擾動產生,剩余的候選解決方案將隨機生成。
4.如權利要求1所述的云環境下基于強化學習的超啟發式任務調度方法,其特征在于,獎勵值的更新公式為:
R1(s,a)=R1(s,a)+α[r+λmaxa′R1'(s,a)-R1(s,a)]
其中maxS′R′(s′,a′)表示給定新狀態和新狀態s′下所有可能操作的最大期望未來;R1(s,a)為前迭代結果的makespan;有限狀態state集合,s表示某個特定狀態;有限動作action集合,a表示某個特定動作;r表示固定獎勵值,為設定的常數;λ表示折扣率,也是固定常數,用以控制獎勵項所占比重。
5.如權利要求1所述的云環境下基于強化學習的超啟發式任務調度方法,其特征在于,上一次迭代得到的makespan確定的獎勵值的第一部分:
R2(s,a)=udcsn-udcsn-1
其中udcsn表示當前迭代中候選解的單元多樣性,udcsn-1表示上一次迭代候選解的單元多樣性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110705390.2/1.html,轉載請聲明來源鉆瓜專利網。





