[發明專利]一種基于模仿學習的任務調度方法及其模型訓練方法在審
| 申請號: | 202210680738.1 | 申請日: | 2022-06-16 |
| 公開(公告)號: | CN115061795A | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 李隆康;吳保元 | 申請(專利權)人: | 深圳市大數據研究院;香港中文大學(深圳) |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安迪業欣知識產權代理事務所(普通合伙) 61278 | 代理人: | 校麗麗 |
| 地址: | 518172 廣東省深圳市龍崗*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模仿 學習 任務 調度 方法 及其 模型 訓練 | ||
1.一種基于模仿學習的任務調度模型訓練方法,其特征在于,所述方法包括:
S1、獲取訓練作業樣本的特征向量;
S2、利用模仿學習方法對所述訓練作業樣本的特征向量進行學習,得到所述訓練作業樣本的標準調度序列;
S3、利用所述訓練作業樣本的特征向量和標準調度序列訓練策略網絡,得到任務調度模型。
2.根據權利要求1所述的方法,其特征在于,所述S3具體包括:
S31、將所述訓練作業樣本的特征向量輸入所述策略網絡的編碼器中,獲得所述訓練作業樣本的節點向量;
S32、將所述訓練作業樣本的節點向量輸入所述策略網絡的解碼器中,獲得所述訓練作業樣本的初始調度序列;
S33、利用所述訓練作業樣本的標準調度序列和初始調度序列訓練策略網絡,得到任務調度模型。
3.根據權利要求1所述的方法,其特征在于,所述模仿學習方法為行為克隆算法。
4.根據權利要求3所述的方法,其特征在于,所述行為克隆算法為NEH啟發式算法。
5.根據權利要求2所述的方法,其特征在于,所述編碼器為基于圖神經網絡的編碼器。
6.根據權利要求5所述的方法,其特征在于,所述圖神經網絡為門控圖卷積網絡。
7.根據權利要求2所述的方法,其特征在于,所述解碼器為基于注意力機制的解碼器。
8.根據權利要求1或2所述的方法,其特征在于,所述任務調度模型的損失函數為交叉熵損失函數。
9.一種基于模仿學習的任務調度方法,其特征在于,所述方法包括:
S91、獲取測試作業的特征向量;
S92、將所述測試作業的特征向量輸入任務調度模型中,得到所述測試作業的最終調度序列;
其中,所述任務調度模型為利用權利要求1至8中任一項所述的方法訓練而成的模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市大數據研究院;香港中文大學(深圳),未經深圳市大數據研究院;香港中文大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210680738.1/1.html,轉載請聲明來源鉆瓜專利網。





