[發(fā)明專利]一種GPU整機(jī)柜集群的管理系統(tǒng)在審
| 申請?zhí)枺?/td> | 201810690618.3 | 申請日: | 2018-06-28 |
| 公開(公告)號(hào): | CN108959165A | 公開(公告)日: | 2018-12-07 |
| 發(fā)明(設(shè)計(jì))人: | 王玲燕 | 申請(專利權(quán))人: | 鄭州云海信息技術(shù)有限公司 |
| 主分類號(hào): | G06F15/16 | 分類號(hào): | G06F15/16 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 450018 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 被管理設(shè)備 管理節(jié)點(diǎn) 管理系統(tǒng) 集群 整機(jī) 管理節(jié)點(diǎn)連接 管理端口 管理接口 管理模塊 設(shè)計(jì)管理 兼容性 預(yù)留 管理 開發(fā) 統(tǒng)一 | ||
本發(fā)明公開了一種GPU整機(jī)柜集群的管理系統(tǒng),包括:設(shè)置有被管理設(shè)備和GPU卡的GPU節(jié)點(diǎn);與每個(gè)GPU節(jié)點(diǎn)相連的管理節(jié)點(diǎn),用于對每個(gè)GPU節(jié)點(diǎn)中各自對應(yīng)的被管理設(shè)備和GPU卡進(jìn)行管理;本發(fā)明通過對每個(gè)GPU節(jié)點(diǎn)中各自對應(yīng)的被管理設(shè)備和GPU卡進(jìn)行管理的管理節(jié)點(diǎn)的設(shè)置,將原本每個(gè)GPU節(jié)點(diǎn)中的管理模塊從GPU節(jié)點(diǎn)中獨(dú)立出來,每個(gè)GPU節(jié)點(diǎn)上不需要單獨(dú)設(shè)計(jì)管理模塊,只需預(yù)留與管理節(jié)點(diǎn)連接的管理接口,節(jié)省了開發(fā)成本,避免了資源浪費(fèi);并且可以通過GPU節(jié)點(diǎn)的管理端口的統(tǒng)一設(shè)計(jì),增強(qiáng)產(chǎn)品的兼容性。
技術(shù)領(lǐng)域
本發(fā)明涉及電力電子技術(shù)領(lǐng)域,特別涉及一種GPU整機(jī)柜集群的管理系統(tǒng)。
背景技術(shù)
隨著AI技術(shù)的飛速發(fā)展,高運(yùn)算性能的整機(jī)柜架構(gòu)也出現(xiàn)了空前的研發(fā)高漲。而目前NVIDIA(英偉達(dá))發(fā)布的高計(jì)算性能的GPU卡,在計(jì)算性能上占據(jù)了領(lǐng)先的地位。將多個(gè)GPU(Graphics Processing Unit,圖形處理器)卡進(jìn)行并行連接組成一個(gè)GPU節(jié)點(diǎn)計(jì)算集群,搭配計(jì)算服務(wù)器成為業(yè)界不斷提高計(jì)算性能的計(jì)算系統(tǒng),而整機(jī)柜以其高密度便捷性成為整個(gè)計(jì)算系統(tǒng)的部署方式。
一個(gè)整機(jī)柜可搭載多個(gè)GPU卡,其通過PCIE的擴(kuò)展芯片對數(shù)據(jù)鏈路進(jìn)行多層級(jí)的擴(kuò)展,每增加一層擴(kuò)展芯片,其數(shù)據(jù)路徑就成倍的增加,搭載的GPU卡也成倍的增加。對這些GPU卡以及擴(kuò)展芯片需要一個(gè)管理模塊,進(jìn)行信息的收集和工作狀態(tài)的監(jiān)控。
現(xiàn)有技術(shù)中,GPU整機(jī)柜包含計(jì)算節(jié)點(diǎn)和GPU節(jié)點(diǎn),往往將管理模塊設(shè)置在GPU節(jié)點(diǎn)內(nèi),每個(gè)GPU節(jié)點(diǎn)都設(shè)計(jì)了用于管理的模塊,這對多個(gè)GPU節(jié)點(diǎn)組合成大規(guī)模集群時(shí),管理模塊的冗余,造成了資源的浪費(fèi)。因此,如何大規(guī)模的GPU整機(jī)柜集群系統(tǒng),避免GPU節(jié)點(diǎn)管理模塊的冗余,節(jié)省開發(fā)成本,避免資源浪費(fèi),是現(xiàn)今急需解決的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種GPU整機(jī)柜集群的管理系統(tǒng),以利用管理節(jié)點(diǎn)將管理模塊從GPU節(jié)點(diǎn)中獨(dú)立出來,避免資源浪費(fèi),增強(qiáng)產(chǎn)品的兼容性。
為解決上述技術(shù)問題,本發(fā)明提供一種GPU整機(jī)柜集群的管理系統(tǒng),包括:
設(shè)置有被管理設(shè)備和GPU卡的GPU節(jié)點(diǎn);
與每個(gè)所述GPU節(jié)點(diǎn)相連的管理節(jié)點(diǎn),用于對每個(gè)所述GPU節(jié)點(diǎn)中各自對應(yīng)的被管理設(shè)備和GPU卡進(jìn)行管理。
可選的,所述管理節(jié)點(diǎn),包括:
控制芯片,用于獲取每個(gè)所述GPU節(jié)點(diǎn)中各自對應(yīng)的GPU卡的信息和工作狀態(tài);
第一擴(kuò)展芯片,用于獲取每個(gè)所述GPU節(jié)點(diǎn)中各自對應(yīng)的被管理設(shè)備的信息;
處理器,用于通過所述控制芯片和所述第一擴(kuò)展芯片,獲取每個(gè)所述GPU節(jié)點(diǎn)中各自對應(yīng)的GPU卡的信息、工作狀態(tài)和被管理設(shè)備的信息,并對每個(gè)所述GPU節(jié)點(diǎn)中各自對應(yīng)被管理設(shè)備進(jìn)行控制。
可選的,所述處理器通過PCIE2.0總線分別與所述控制芯片和所述第一擴(kuò)展芯片相連。
可選的,所述管理節(jié)點(diǎn),還包括:
與所述處理器相連的SATA接口,用于連接存儲(chǔ)裝置為所述處理器安裝操作系統(tǒng)。
可選的,所述管理節(jié)點(diǎn),還包括:
與所述處理器相連的網(wǎng)絡(luò)接口,用于實(shí)現(xiàn)所述處理器通過網(wǎng)絡(luò)進(jìn)行的數(shù)據(jù)傳輸。
可選的,所述管理節(jié)點(diǎn),還包括:
與所述控制芯片相連的VGA接口,用于連接顯示器,以顯示每個(gè)所述GPU節(jié)點(diǎn)中各自對應(yīng)的GPU卡的信息和工作狀態(tài)。
可選的,所述管理節(jié)點(diǎn),還包括:
與所述控制芯片相連的RJ45接口,用于實(shí)現(xiàn)所述控制芯片的在線控制。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鄭州云海信息技術(shù)有限公司,未經(jīng)鄭州云海信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810690618.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F15-00 通用數(shù)字計(jì)算機(jī)
G06F15-02 .通過鍵盤輸入的手動(dòng)操作,以及應(yīng)用機(jī)內(nèi)程序的計(jì)算,例如,袖珍計(jì)算器
G06F15-04 .在引入被處理的數(shù)據(jù)的同時(shí),進(jìn)行編制程序的,例如,在同一記錄載體上
G06F15-08 .應(yīng)用插接板編制程序的
G06F15-16 .兩個(gè)或多個(gè)數(shù)字計(jì)算機(jī)的組合,其中每臺(tái)至少具有一個(gè)運(yùn)算器、一個(gè)程序器及一個(gè)寄存器,例如,用于數(shù)個(gè)程序的同時(shí)處理
G06F15-18 .其中,根據(jù)計(jì)算機(jī)本身在一個(gè)完整的運(yùn)行期間內(nèi)所取得的經(jīng)驗(yàn)來改變程序的;學(xué)習(xí)機(jī)器
- 一種多設(shè)備管理方法及系統(tǒng)
- 一種IP浮動(dòng)的設(shè)備的管理方法和網(wǎng)絡(luò)管理設(shè)備
- 通用可擴(kuò)展的管理設(shè)備配置文件的方法及設(shè)備
- 自動(dòng)實(shí)現(xiàn)管理設(shè)備和被管理設(shè)備鏈接的方法及系統(tǒng)
- 一種設(shè)備狀態(tài)輪詢的方法及其裝置
- 一種局域網(wǎng)設(shè)備的管理系統(tǒng)
- 數(shù)據(jù)采集方法、裝置、管理設(shè)備及存儲(chǔ)介質(zhì)
- 一種設(shè)備管理方法、設(shè)備及系統(tǒng)
- 一種設(shè)備匹配連接的方法、裝置和系統(tǒng)
- 監(jiān)測被管理設(shè)備的運(yùn)行健康狀態(tài)的裝置和方法
- 網(wǎng)絡(luò)管理系統(tǒng)及其方法
- 一種節(jié)點(diǎn)切換方法及裝置
- 一種虛擬化管理平臺(tái)中管理節(jié)點(diǎn)切換方法及系統(tǒng)
- 一種基于云平臺(tái)的自動(dòng)管理節(jié)點(diǎn)負(fù)載的方法
- 分布式工作流管理方法及裝置
- 一種業(yè)務(wù)節(jié)點(diǎn)管理的方法、裝置和節(jié)點(diǎn)網(wǎng)絡(luò)
- 一種云平臺(tái)管理節(jié)點(diǎn)的故障恢復(fù)方法、系統(tǒng)及相關(guān)裝置
- 管理節(jié)點(diǎn)切換方法、裝置、信號(hào)傳輸系統(tǒng)及電子設(shè)備
- 選擇管理節(jié)點(diǎn)的方法和裝置、設(shè)備及其存儲(chǔ)介質(zhì)
- 一種分布式節(jié)點(diǎn)管理方法、設(shè)備及存儲(chǔ)介質(zhì)
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時(shí)維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺(tái)多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點(diǎn)和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)介質(zhì)
- 混合云場景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





