[發明專利]分布式環境中多GPU服務器的GPU卡管理方法、系統及存儲介質有效
| 申請號: | 202010081235.3 | 申請日: | 2020-02-06 |
| 公開(公告)號: | CN111290855B | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 孫亞楠;呂建成 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06N3/08 |
| 代理公司: | 成都正華專利代理事務所(普通合伙) 51229 | 代理人: | 李蕊 |
| 地址: | 610064 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 環境 gpu 服務器 管理 方法 系統 存儲 介質 | ||
1.分布式環境中多GPU服務器的GPU卡管理方法,其特征在于,包括:
S1、獲取所有GPU服務器的基本信息,并將其存儲至配置文件中,清除配置表中的全部內容;所述基本信息至少包括登錄名、登錄密碼和IP地址;
S2、獲取每臺GPU服務器中的空閑GPU卡,并將空閑GPU卡的編號及其所在GPU服務器編號作為一條記錄存儲至配置表中;
S3、判斷是否還存在GPU服務器未查找空閑GPU卡,若是則繼續執行未查找的GPU服務器,否則判斷是否存在未遍歷的需要訓練的深度神經網絡架構模型,若是于設定時間后返回步驟S1,否則停止步驟S1至步驟S3的循環;
S4、當配置表中存在至少一條記錄時,隨機選取配置表中的一條記錄,并將其從配置表中刪除;
S5、選取一個未遍歷的需要訓練的深度神經網絡架構模型,并將其發送至選取的記錄中的空閑GPU卡上運行;
S6、判斷是否存在未遍歷的需要訓練的深度神經網絡架構模型,若是,返回步驟S4,否則進入步驟S7;
S7、搜索并匯總消息隊列中記錄的來自于需要訓練的深度神經網絡架構模型的所有記錄;
所述步驟S2進一步包括:
S21、判斷計數器i是否大于GPU服務器總數量,若是進入步驟S3,否則進入步驟S22,i的初始值為1;
S22、讀取配置文件中序號為i的GPU服務器的基本信息,并通過ssh方式登錄到序號為i的GPU服務器;
S23、于序號為i的GPU服務器上執行nvidia-smi命令,并根據返回信息解析得到序號為i的GPU服務器上的空閑GPU卡的編號;
S24、將空閑GPU卡的編號及其所在GPU服務器的基本信息作為一條記錄存儲至配置表中,并更新計數器i=i+1后,返回步驟S21。
2.根據權利要求1所述的分布式環境中多GPU服務器的GPU卡管理方法,其特征在于,所述步驟S5進一步包括:
S51、根據選取的記錄,從配置文件中讀取對應GPU服務器的基本信息;
S52、利用sfpt命令將選取的需要訓練的深度神經網絡架構模型及模型獨立運行所需的文件傳輸至記錄中的GPU服務器;
S53、采用異步方法遠程調用命令將選取的需要訓練的深度神經網絡架構模型發送至GPU服務器對應的空閑CPU卡上運行。
3.根據權利要求2所述的分布式環境中多GPU服務器的GPU卡管理方法,其特征在于,所述異步方法遠程調用命令為python語言中的popen方法。
4.根據權利要求1-3任一所述的分布式環境中多GPU服務器的GPU卡管理方法,其特征在于,所述設定時間為5min。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010081235.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用性強的鼠標
- 下一篇:一種人眼視域內智能前行行李箱系統





