[發明專利]資源調度的方法、裝置、電子設備及存儲介質在審
| 申請號: | 202110875335.8 | 申請日: | 2021-07-30 |
| 公開(公告)號: | CN113515385A | 公開(公告)日: | 2021-10-19 |
| 發明(設計)人: | 陳杰;唐振 | 申請(專利權)人: | 盛景智能科技(嘉興)有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06K9/62;G06F9/48 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王宇楊 |
| 地址: | 314506 浙江省嘉興市桐鄉*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 資源 調度 方法 裝置 電子設備 存儲 介質 | ||
本發明公開了資源調度的方法、裝置、電子設備及存儲介質,包括:獲取任務以及當前環境狀態;將任務、當前環境狀態輸入至已訓練的資源調度模型,得到部署任務的動作描述信息;根據動作描述信息將任務部署到對應的物理節點上;其中,已訓練的資源調度模型為利用不同任務以及不同環境狀態進行訓練后得到。本發明通過設置基于資源均勻度以及資源飽和度的動作獎勵,兼顧資源分配的均勻度及單節點的資源飽和度,使得在相同硬件資源下能夠承擔更多的任務,從而實現對提交的任務的合理分配,以達到集群資源的有效利用。
技術領域
本發明涉及計算機技術領域,具體涉及資源調度的方法、裝置、電子設備及存儲介質。
背景技術
隨著人工智能技術的發展及應用,對算力的要求也變得越來越大,目前常見的做法是搭建一個分布式系統集群,然后基于集群做模型的訓練。對于一個集群而言,其中資源調度策略是其核心功能之一。
目前,在分布式系統中,其資源調度策略仍然是基于定義的規則來對提交的任務進行物理節點的分配,在實際應用中,隨著提交的模型訓練任務量的增加,越來越多的訓練任務被堆積,而實際集群資源卻得不到充分利用。
綜上,目前亟需一種資源調度的技術,用于解決上述現有技術存在的問題。
發明內容
由于現有方法存在上述問題,本發明提出資源調度的方法、裝置、電子設備及存儲介質。
第一方面,本發明提供了一種資源調度的方法,包括:
獲取任務以及當前環境狀態;所述任務包含資源需求量;所述當前環境狀態包括多個物理節點當前的負載狀態;
將所述任務、所述當前環境狀態輸入至已訓練的資源調度模型,得到部署所述任務的動作描述信息;
根據所述動作描述信息將所述任務部署到所述動作描述信息對應的物理節點上;
其中,所述已訓練的資源調度模型為利用不同任務以及不同環境狀態進行訓練后得到。
進一步地,所述資源調度模型包含價值網絡以及目標網絡,在將所述任務、所述當前環境狀態輸入至已訓練的資源調度模型,得到部署所述任務的動作描述信息之前,還包括:
獲取預設數量的訓練樣本集;每組訓練樣本包含第一環境狀態、動作描述信息、第二環境狀態、動作獎勵;所述第一環境狀態為執行所述動作描述信息前各個物理節點負載狀態;所述第二環境狀態為執行所述動作描述信息后各個物理節點負載狀態;所述動作獎勵為執行所述動作描述信息對應的獎勵值;
將所述第一環境狀態、所述動作描述信息輸入到所述價值網絡中得到第一函數值;
將所述第二環境狀態輸入到所述目標網絡中得到第二函數值;
根據所述第一函數值、所述第二函數值確定損失函數;
根據所述損失函數更新所述資源調度模型的參數,得到已訓練的資源調度模型。
進一步地,所述根據所述損失函數更新所述資源調度模型的參數,包括:
根據所述損失函數更新所述價值網絡的參數;
判斷所述價值網絡更新次數是否達到預設閾值,若達到,則將所述價值網絡的參數賦值給所述目標網絡的參數。
進一步地,所述價值網絡包含第一網絡以及第二網絡;所述將所述第一環境狀態、所述動作描述信息輸入到所述價值網絡中得到第一函數值,包括:
將所述第一環境狀態、所述任務輸入至所述第一網絡中,得到所述動作描述信息;
將所述第一環境狀態、所述動作描述信息輸入到所述第二網絡中得到所述第一函數值。
進一步地,所述獲取預設數量的訓練樣本集,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛景智能科技(嘉興)有限公司,未經盛景智能科技(嘉興)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110875335.8/2.html,轉載請聲明來源鉆瓜專利網。





