[發明專利]集群GPU資源管理調度系統、方法以及計算機可讀存儲介質在審
| 申請號: | 202010078390.X | 申請日: | 2020-01-23 |
| 公開(公告)號: | CN111538586A | 公開(公告)日: | 2020-08-14 |
| 發明(設計)人: | 喬蕭雅;何東杰 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 俞華梁;姜冰 |
| 地址: | 200135 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 集群 gpu 資源管理 調度 系統 方法 以及 計算機 可讀 存儲 介質 | ||
本發明涉及一種集群GPU資源管理調度系統,所述系統包括主機和第一多個節點,所述主機用于接收第二多個Pod的資源請求以實現所述第二多個Pod所承載的服務,其包括:GPU資源描述模塊,其配置成描述所述第一多個節點中的每一者的GPU資源和所述第二多個Pod中的每一者的資源需求,所述資源需求根據所述資源請求生成;以及GPU資源調度模塊,其配置成根據所述描述將所述第二多個Pod的資源請求在所述第一多個節點上進行調度。所述第一多個節點中的每一者與所述主機通信,其包括:GPU監控模塊,其配置成監控該節點的GPU資源并發送給所述GPU資源描述模塊;以及GPU微處理模塊,其配置成根據所述調度將該節點的GPU資源在所述第二多個Pod中進行分配。
技術領域
本發明涉及計算資源共享與管理領域,具體而言,涉及集群GPU資源管理調度系統、方法以及計算機可讀存儲介質。
背景技術
隨著人臉識別、語音識別、自然語言處理、風險防控等前沿技術的研究和應用,越來越多的人工智能創新研究需要應用GPU進行大規模的數據處理與加速,具體的應用場景諸如手機POS、物聯網邊緣計算、區塊鏈等。因此,對GPU資源進行有效的管理、實現GPU資源的按需分配以及提高GPU資源的使用效率具有十分重要的意義。
基于Kubernetes的云原生技術對人工智能計算所依賴的軟硬件資源提供了管理與支持,成為目前主流的人工智能環境構建的最佳選擇。在現有的基于Kubernetes的集群GPU資源管理技術中,大多通過設備直通的方式使用完整物理GPU資源對服務提供算力支持,尤其是對重負載大算力的人工智能任務的有效支持,例如VR、AR以及大規模的人工智能訓練場景,但是對于依賴容器技術部署的輕負載的人工智能推理計算場景,對GPU算力要求較低,并不能有效使用單顆完整的GPU資源,同時空閑資源也無法被其他服務占用,造成GPU資源浪費、計算任務等待等的情況。
發明內容
有鑒于此,本發明旨在提供一種高效管理、調度集群GPU資源的機制,以期提高GPU資源的利用率,具體而言:
根據本發明的一方面,提供一種集群GPU資源管理調度系統,所述系統包括主機和第一多個節點,所述主機用于接收第二多個Pod的資源請求以實現所述第二多個Pod所承載的服務,其包括:GPU資源描述模塊,其配置成描述所述第一多個節點中的每一者的GPU資源和所述第二多個Pod中的每一者的資源需求,所述資源需求根據所述資源請求生成;以及GPU資源調度模塊,其配置成根據所述描述將所述第二多個Pod的資源請求在所述第一多個節點上進行調度。所述第一多個節點中的每一者與所述主機通信,其包括:GPU監控模塊,其配置成監控該節點的GPU資源并發送給所述GPU資源描述模塊;以及GPU微處理模塊,其配置成根據所述調度將該節點的GPU資源在所述第二多個Pod中進行分配。
在本發明的一些實施例中,可選地,所述GPU資源描述模塊描述的所述GPU資源包括:GPU型號、GPU的UUID、GPU顯存資源和GPU計算資源。
在本發明的一些實施例中,可選地,所述GPU顯存資源包括該節點的可用GPU顯存資源,所述GPU計算資源包括對該節點的計算資源的累計請求值、該節點的計算資源的剩余值。
在本發明的一些實施例中,可選地,所述GPU資源調度模塊根據所述第一多個節點中的每一者的GPU資源與所述第二多個Pod中的每一者的資源需求的匹配程度進行所述調度。
在本發明的一些實施例中,可選地,所述GPU資源調度模塊根據所述第一多個節點中的每一者的GPU資源和所述第二多個Pod中的每一者的資源需求形成的匹配度函數確定所述匹配程度。
在本發明的一些實施例中,可選地,所述匹配度函數為其中,score表示所述匹配度,表示第iPod的資源需求中的GPU顯存資源需求,表示第j節點的GPU資源中的可用GPU顯存資源;以及表示第i Pod的資源需求中的計算資源需求,abilityj表示第j節點的計算能力值,表示第j節點的計算資源的剩余值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010078390.X/2.html,轉載請聲明來源鉆瓜專利網。





