[發明專利]基于多智能體深度強化學習的集群資源調度方法及系統有效
| 申請號: | 202010322543.0 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111694656B | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 潘麗晨;毛航宇;肖臻;張正超 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F9/48;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 陳艷 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 智能 深度 強化 學習 集群 資源 調度 方法 系統 | ||
本發明公開一種基于多智能體深度強化學習的集群資源調度方法及系統,涉及計算機軟件技術領域,生成隨機合成的作業序列或者基于云服務提供商公開數據的真實作業序列,從作業序列中提取作業,添加到等待作業隊列中并計算預計執行時間,該等待作業隊列設置成由多臺機器組成的集群共享,每臺機器含有待分配的計算資源;根據傳統手工設計的啟發式調度算法生成調度決策,并利用該調度決策訓練、評估和優化基于多智能體深度強化學習的自適應調度算法,據以得到當前所有待調度作業整體的最終調度決策;對于待調度作業,根據最終調度決策指定的目標機器,在目標機器的可用計算資源中扣除作業使用的資源,到達作業預計完成時間后釋放,完成調度。
技術領域
本發明涉及計算機軟件技術領域,具體為一種基于多智能體深度強化學習的集群資源調度方法及系統。
背景技術
隨著移動網絡、智能手機的快速普及,社交媒體、在線購物等應用迅猛發展,互聯網中產生的數據量在近十年呈爆炸式的增長。這些數據一方面需要及時處理,以給用戶提供快速的反應和良好的使用體驗;另一方面也需要對數據進行更加深入的分析和理解,以提供更加符合用戶習慣的服務,提高服務質量。在數據量爆炸的背景下,及時處理和深入處理這兩大需求都需要強大的計算能力的支撐,把相應的計算和存儲任務部署到大規模分布式環境中是提供充足計算能力的最主流方式。
在一個分布式系統中,調度問題無所不在,計算資源調度問題是其中最基礎、最根本的調度問題。集群中可供調度的計算資源有CPU、內存、磁盤以及網絡帶寬等等,良好的調度算法,需要根據作業的請求的資源量、作業的特點、集群中各臺機器的網絡拓撲以及資源剩余情況等信息使得作業在提交之后盡快在有充足資源的機器上運行。
資源分配通常是組合性問題,本身就是一個NP難問題,在作業序列動態到來,并且負載變化有一定周期性特征,而且也可能出現意外的負載洪峰的情況下,傳統手工設計的啟發式算法更加難以滿足在不同情況下的調度需求。最近的研究表明,機器學習方法,特別是深度強化學習方法可以為集群資源調度的問題的啟發式方法提供一個可行的替代方案。不過目前的方法都是基于單智能體的深度強化學習算法,需要由一個智能體綜合考慮機器和作業的狀態做出調度決策。然而在調度問題中,為了提高整個系統的性能,機器和作業在調度過程中具體的優化目標是有一定差別的,這在單智能體的設計中很難被充分考慮。
發明內容
為了克服傳統手工設計的啟發式調度算法開發測試費事費力、無法適應環境變化,以及基于單智能體強化學習算法無法充分滿足機器以及作業在調度過程中的差異化優化目標的問題,本發明提供一種基于多智能體深度強化學習的集群資源調度方法及系統。
為解決上述問題,本發明采用的技術方案如下:
一種基于多智能體深度強化學習的集群資源調度方法,包括以下步驟:
生成作業序列,包括生成隨機合成的作業序列或者基于云服務提供商公開數據的真實作業序列;
從作業序列中提取作業,添加到等待作業隊列中并計算預計執行時間,該等待作業隊列設置成由多臺機器組成的集群共享,每臺機器含有待分配的計算資源;
根據傳統手工設計的啟發式調度算法生成調度決策,并利用該調度決策訓練、評估和優化基于多智能體深度強化學習的自適應調度算法,根據基于多智能體深度強化學習的自適應調度算法得到當前所有待調度作業整體的最終調度決策;
對于待調度作業,根據上述最終調度決策指定的目標機器,在目標機器的可用計算資源中扣除作業使用的資源,到達作業預計完成時間后釋放,完成調度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010322543.0/2.html,轉載請聲明來源鉆瓜專利網。





