[發明專利]一種基于聯合強化學習策略的多目標云工作流調度方法有效

申請號：	202110024639.3	申請日：	2021-01-08
公開（公告）號：	CN112685165B	公開（公告）日：	2022-08-23
發明（設計）人：	李慧芳;王彬陽;黃姜杭;王一竹;黃經緯;鄒偉東;柴森春;夏元清	申請（專利權）人：	北京理工大學
主分類號：	G06F9/48	分類號：	G06F9/48;G06F9/455;G06N20/00;G06N3/04
代理公司：	北京理工大學專利中心 11120	代理人：	代麗
地址：	100081 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于聯合強化學習策略多目標工作流調度方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于聯合強化學習策略的多目標云工作流調度方法，其特征在于，包括以下步驟：

步驟1、構建基于強化學習代理的聯合策略模型，所述基于強化學習代理的聯合策略模型包含基于引導策略和進化策略強化學習算法的兩個子代理，每個子代理模型又包含時間優化子網和成本優化子網兩個部分；構建進化策略子代理，其主體結構為由多個指針網絡作為并行網絡并聯構成，隨機選取任意并行網絡的輸出作為進化策略決策子代理的輸出；構建引導策略子代理，其主體結構為包括混合時變線性高斯控制器的前置引導監督模塊及策略網絡，其中，策略網絡與進化策略子代理具有相同的網絡結構，前置引導監督模塊為采用重要性采樣方式重復利用離線樣本，并通過微分動態規劃算法對離線樣本集進行補充，引導算法搜索指向高回報區域獲得更高質量的解；

所述基于強化學習代理的聯合策略模型的狀態包括工作流執行時間狀態和工作流執行成本狀態；所述工作流執行時間狀態和工作流執行成本狀態均包含任務狀態和虛擬機狀態；

步驟2、所述時間優化子網以所述工作流執行時間狀態作為輸入、所述成本優化子網以所述工作流執行成本狀態作為輸入與環境交互，完成一次完整調度，將調度過程涉及的所有狀態轉換、動作和回報作為訓練樣本構建訓練樣本集，采用所述訓練樣本集訓練所述基于強化學習代理的聯合策略模型；

步驟3、調度應用時，將由所述步驟1計算得到的待調度工作流的工作流執行時間狀態和工作流執行成本狀態輸入到所述基于強化學習代理的聯合策略模型中分別得到時間優化工作流調度方案和成本優化工作流調度方案，從中確定工作流調度方案；

所述步驟2中所述時間優化子網以所述工作流執行時間狀態作為輸入、所述成本優化子網以所述工作流執行成本狀態作為輸入與環境交互，完成一次完整調度，將調度過程涉及的所有狀態轉換、動作和回報作為訓練樣本構建訓練樣本集，包括以下步驟：

步驟5.1、重置環境為初始狀態，已調度任務列表及虛擬機運行狀態記錄列表均為空；

步驟5.2、將當前時間步t下兩個優化目標下的所述工作流執行時間狀態和工作流執行成本狀態分別輸入到所述時間優化子網和所述成本優化子網中，得到備選方案在兩個優化目標下的最終選擇概率；

步驟5.3、根據所述最終選擇概率，依照Pareto準則分別選擇所述時間優化子網和所述成本優化子網的最終行為并輸出；

步驟5.4、根據公式1-e^{0.1×ep×nmax}，其中，ep為訓練的片段數，nmax為以回報為評價標準下各子代理交互過程中累計的優勝次數，分別計算所述時間優化子網和所述成本優化子網的行為概率，選擇概率較大的子代理的最終行為作為模型最終行為；

步驟5.5、執行所述模型最終行為得到新環境狀態，更新所述已調度任務列表及虛擬機運行狀態記錄列表；

步驟5.6、計算并存儲兩個目標在當前時間步t下的回報值，并將所述回報值和馬爾科夫過程e_t、e_t+1添加到所述訓練樣本集中；

步驟5.6、判斷工作流調度過程是否完成，如果已完成，則結束本流程；否則，執行步驟5.2。

2.根據權利要求1所述的多目標云工作流調度方法，其特征在于，所述步驟1中的所述工作流執行時間狀態包括和

其中，當前時間步t下任務的狀態，n為當前時間步t下可調度的任務個數；θ_i表示當前可調度任務的計算量，ns_i為當前可調度任務的所有子任務的個數，nc_i表示從當前可調度任務到出口任務的最大路徑長度；

為當前時間步t下虛擬機的狀態，m為虛擬機個數，為當前時間步t下虛擬機r_f的預期租用結束時間。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京理工大學，未經北京理工大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110024639.3/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種成孔注漿雙功能鉆具
下一篇：一種信息對比方法、裝置、介質及設備

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F9-00 程序控制裝置，例如，控制器
G06F9-02 .應用有線連接的，例如，插頭板
G06F9-04 .應用僅含程序指令的記錄載體的
G06F9-06 .應用存入的程序的，即應用處理設備的內部存儲來接收程序并保持程序的
G06F9-22 ..微控制或微程序裝置
G06F9-30 ..執行機器指令的裝置，例如指令譯碼

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】