[發明專利]一種集群GPU資源調度系統和方法有效

申請號：	201110446323.X	申請日：	2011-12-28
公開（公告）號：	CN102541640A	公開（公告）日：	2012-07-04
發明（設計）人：	湯偉賓;吳鴻偉;羅佳	申請（專利權）人：	廈門市美亞柏科信息股份有限公司
主分類號：	G06F9/46	分類號：	G06F9/46;G06F9/50
代理公司：	北京恒都律師事務所 11395	代理人：	何自剛
地址：	361008 福建省廈門***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種集群 gpu 資源調度系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及計算機網絡技術領域，尤其涉及一種集群GPU資源調度系統和方法。

背景技術

近年來，圖形處理器(Graphic?Processing?Unit，GPU)在硬件架構上已取得持續的高速發展，已經演變為擁有強大的計算能力的高度并行、多線程及多處理核心的處理器，它采用不同于中央處理器(Central?Processing?Unit，CPU)的單指令多線程(Single?Instruction?Multiple?Thread，SIMT)體系結構，增加了編程的靈活性。GPU專用于解決可表示為數據并行計算的問題，即絕大部分數據元素具有相同的數據路徑，而具有極高的計算密度(數學運算與存儲器運算的比率)，這樣可隱藏存儲器訪問延遲。憑借其強大的計算能力，GPU并行技術對傳統的CPU應用發起了強有力的沖擊，其已被廣泛運用于視頻轉碼、物理模擬、地球表層測繪以及網絡安全等熱門研究領域。

如何充分利用GPU的并行計算能力來解決復雜運算的問題，已經成為當今GPU技術的研究熱點之一。然而在實際應用中，單個GPU往往無法承載復雜的計算任務，因此需要將多個GPU組成一個GPU集群，以完成復雜的計算任務，現有技術中通常采用基于單主機多GPU卡的調度方式對資源進行調度以完成復雜的計算任務，但是該方式存在計算能力有限且擴展性差等缺點。

此外，GPU在執行任務時，其使用權是不可剝奪不可搶占的，因此如何高效地調度GPU資源，以充分發揮其并行計算能力，是目前各種高性能計算應用中迫切需要解決的問題。

發明內容

有鑒于此，本發明提供一種集群GPU資源調度系統和方法，用以解決現有的單個GPU無法承載復雜計算任務，且現有的集群GPU資源調度方式效率不高、且集群中的GPU卡無法即插即用的問題。本發明提供的集群GPU資源調度系統和方法能夠實現GPU資源的充分利用，使多個計算任務并行執行，此外，還能夠實現集群中各子節點GPU的即插即用。

本發明提供的一種集群圖形處理器GPU資源調度系統，包括：集群初始化模塊、GPU主節點以及若干個GPU子節點；所述集群初始化模塊用于對所述GPU主節點以及所述若干個GPU子節點進行初始化；所述GPU主節點用于接收用戶輸入的任務，并將該任務劃分為若干個子任務，通過調度若干個所述GPU子節點，將所述若干個子任務分配到若干個所述GPU子節點上；所述GPU子節點用于執行子任務并向所述GPU主節點返回任務執行結果。

所述GPU主節點包括：任務接收模塊，用于負責接收用戶輸入的任務；任務劃分模塊，用于將任務接收模塊提供的用戶輸入的任務劃分為若干個子任務，并提供給GPU資源調度模塊；GPU資源調度模塊，用于根據收到的各GPU子節點的心跳信號，按計算能力對本集群中的GPU子節點資源進行歸類和維護，并根據任務的優先級為收到的各任務指定對應計算能力的GPU子節點，以公平調度的方式調度為各任務所選取的GPU子節點；結果處理模塊，用于接收處理各GPU子節點返回的子任務計算結果；資源回收模塊，用于根據結果處理模塊返回的任務執行結果，回收已完成子任務的GPU子節點資源；心跳處理模塊，用于將各GPU子節點提供的包括子節點的ID號、計算能力及執行的任務信息的心跳信號提供給GPU資源調度模塊。

所述GPU子節點包括：子任務接收模塊，用于接收所述GPU主節點分配給本GPU子節點的子任務；子任務執行模塊，用于對所述子任務接收模塊接收的子任務進一步細分，為本GPU子節點的每個流處理器分配子任務細塊，并行執行各子任務細塊；結果返回模塊，用于將本GPU子節點的子任務計算結果返回給所述GPU主節；心跳發送模塊，用于向所述GPU主節點定時發送包括子節點的ID號、計算能力及執行的任務信息的心跳信號。

本發明提供的一種集群圖形處理器GPU資源調度方法，包括以下步驟：

步驟1：GPU主節點接收用戶輸入的任務；

步驟2：所述GPU主節點將接受的用戶輸入的任務劃分為若干個子任務；

步驟3：GPU主節點將所述若干個子任務分配到若干個GPU子節點上；

步驟4：各GPU子節點執行各自的子任務；

步驟5：各GPU子節點向所述GPU主節點返回子任務的計算結果；

步驟6：所述GPU主節點處理子任務計算結果，向用戶返回完整任務計算結果；

步驟7：所述GPU主節點收回已完成任務的GPU子節點資源；

步驟8：GPU主節點執行或等待下一任務。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廈門市美亞柏科信息股份有限公司，未經廈門市美亞柏科信息股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】