[發明專利]基于強化學習的集群調度系統在審
| 申請號: | 201810658015.5 | 申請日: | 2018-06-25 |
| 公開(公告)號: | CN108874545A | 公開(公告)日: | 2018-11-23 |
| 發明(設計)人: | 王新雷 | 申請(專利權)人: | 曙光信息產業(北京)有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 北京蘭亭信通知識產權代理有限公司 11667 | 代理人: | 趙永剛 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化學習 集群 集群調度系統 負載均衡器 集群作業 計算節點 管理器 矩陣 調度節點 集群狀態 運算狀態 整體利用率 方式構建 函數模型 優化操作 中斷請求 狀態向量 中斷 報錯 宕機 采集 發送 反饋 概率 回報 | ||
本發明提供一種基于強化學習的集群調度系統,其特征在于,所述集群調度系統包括連接至少一個計算節點的調度節點,所述調度節點包括集群作業管理器和基于強化學習的負載均衡器;其中,集群作業管理器,接收到所述中斷請求后發送當前集群的運算狀態至基于強化學習的負載均衡器;基于強化學習的負載均衡器,根據采集到的當前集群的運算狀態由計算節點狀態向量組成的集群狀態矩陣S,根據集群狀態矩陣S判斷各個計算節點未來宕機或者報錯概率,反饋調優動作a至集群作業管理器,計算當前中斷時刻t的動作回報r,并利用強化學習方式構建Q函數模型,以獲得當前中斷時刻t應對集群采用的優化操作。本發明能夠提高集群整體利用率,縮短用戶平均等待時間偏長。
技術領域
本發明涉及計算機技術領域,尤其涉及一種基于強化學習的集群調度系統。
背景技術
HPC(High Performance Computing,高性能計算)集群通常采用大規模計算節點進行計算,伴隨著大型集群的普及應用,高性能計算集群的用戶數量也越來越多。目前,HPC集群通常采用單個調度節點,或者獨立的多個調度節點進行程序編譯、計算作業的提交和資源分配。然而在HPC領域服務器同時接入用戶數量不像互聯網集群那樣眾多,相應的單個作業資源消耗卻更加巨大。因此,HPC集群通常都會根據自身接入用戶的應用特性做自定義的負載均衡策略,并借助選用的調度器,例如PBS或Slurm,進行負載均衡優化。
在實現本發明的過程中,發明人發現現有技術中至少存在如下技術問題:
現有的自定義負載均衡手段往往是以應用的具體需求做劃分的,如:單個作業需求的CPU/GPU數量,對異構計算的需求,運算量需求等。然而這種調度策略是從滿足具體作業需求的角度出發,雖然能保證應用需求,卻無法保證集群性能被最大化利用。換言之集群整體利用率不高,且可能造成用戶平均等待時間偏長。
發明內容
本發明提供的一種基于強化學習的集群調度系統,能夠提高集群整體利用率,縮短用戶平均等待時間偏長。
本發明提供一種基于強化學習的集群調度系統,所述集群調度系統包括連接至少一個計算節點的調度節點,所述調度節點包括集群作業管理器和基于強化學習的負載均衡器;
其中,所述集群作業管理器,接收所述基于強化學習的負載均衡器時鐘間隔為△t的中斷請求,并接收到所述中斷請求后發送當前集群的運算狀態至所述基于強化學習的負載均衡器;
所述基于強化學習的負載均衡器,根據采集到的所述當前集群的運算狀態由計算節點狀態向量組成的集群狀態矩陣S,根據所述集群狀態矩陣S判斷各個計算節點未來宕機或者報錯概率,反饋調優動作a至所述集群作業管理器,計算當前中斷時刻t的動作回報r,并利用強化學習方式構建基于各個計算節點的節點溫度、資源利用率、作業總數以及所述集群狀態矩陣S的Q函數模型,以估計每一中斷時刻的集群狀態矩陣S所對應的預期未來收益值Q,從而獲得當前中斷時刻t應對集群采用的優化操作。
本發明實施例提供的基于強化學習的集群調度裝置,通過根據采集的集群實時信息判斷計算節點未來宕機或者報錯概率,從而對集群進行調優。與現有技術相比,本發明利用基于強化學習的負載均衡策略來優化集群調度,不僅能夠滿足作業本身對硬件資源的需求,而且能夠提高集群整體利用率,降低節點宕機和故障概率,從而降低用戶整體等待時間,達到對整個集群資源的更優化利用的目的。
附圖說明
圖1為本發明一實施例基于強化學習的集群調度系統的結構示意圖。
具體實施方式
為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例?;诒景l明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曙光信息產業(北京)有限公司,未經曙光信息產業(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810658015.5/2.html,轉載請聲明來源鉆瓜專利網。





