[發明專利]一種深度學習系統的部署方法和裝置有效
| 申請號: | 202110651910.6 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113254158B | 公開(公告)日: | 2021-10-12 |
| 發明(設計)人: | 芮法玲 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455;H04L12/24;H04L29/08 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 劉小峰;楊帆 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 深度 學習 系統 部署 方法 裝置 | ||
本發明公開了一種深度學習系統的部署方法和裝置,方法包括:定義第一節點組和第二節點組的節點組模板,節點組模板包括指示第一節點組所安裝的組件和第二節點組所安裝的組件;基于節點組模板定義設備組的集群模板,集群模板包括指示設備組中按照第一節點組來安裝組件的第一節點的數量和按照第二節點組來安裝組件的第二節點的數量;校驗集群模板的配置合理性,并基于集群模板與多個第一節點和多個第二節點相對應地創建分別具有人工智能框架的多個虛擬機;為多個虛擬機配置通信基準,并分別向多個虛擬機的人工智能框架中導入深度學習鏡像。本發明能夠自動執行集群的部署工作,提升集群的可用性和易用性。
技術領域
本發明涉及人工智能領域,更具體地,特別是指一種深度學習系統的部署方法和裝置。
背景技術
人工智能,英文縮寫為AI,是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學?,F有技術中AIStation面向深度學習計算集群提供從數據上傳、模型開發、模型訓練、訓練可視化的全流程訓練服務。AIStation支持多種深度學習系統,能夠快速部署深度學習訓練環境,全面管理深度學習訓練任務,為深度學習用戶提供高效易用的平臺;對計算集群的CPU(中央處理單元)及GPU(圖形處理單元)資源進行統一的管理、調度及監控,有效的提高計算資源的利用率和生產率。
但現有技術中部署AIStation集群過于復雜和難以實現。首先需要準備集群,并為所有節點安裝操作系統;然后在管理節點上傳安裝包,并修改配置文件;再執行一步一步的安裝腳本。安裝操作系統是非常耗時的操作,尤其是當集群節點數量多時,光是安裝操作系統就需要耗費非常多的人力,而修改配置和執行安裝也是稍有不慎就會造成失敗。
針對現有技術中AIStation集群難以部署的問題,目前尚無有效的解決方案。
發明內容
有鑒于此,本發明實施例的目的在于提出一種深度學習系統的部署方法和裝置,能夠自動執行AIStation集群的部署工作,提升AIStation集群的可用性和易用性。
基于上述目的,本發明實施例的第一方面提供了一種深度學習系統的部署方法,包括執行以下步驟:
定義第一節點組和第二節點組的節點組模板,其中節點組模板包括指示第一節點組所安裝的組件和第二節點組所安裝的組件;
基于節點組模板定義設備組的集群模板,其中集群模板包括指示設備組中按照第一節點組來安裝組件的第一節點的數量和按照第二節點組來安裝組件的第二節點的數量;
校驗集群模板的配置合理性,并響應于集群模板的配置合理而基于集群模板與多個第一節點和多個第二節點相對應地創建分別具有人工智能框架的多個虛擬機;
為多個虛擬機配置通信基準,并基于通信基準分別向多個虛擬機的人工智能框架中導入深度學習鏡像。
在一些實施方式中,方法還包括:在定義第一節點組和第二節點組的節點組模板之前先創建包括通用模塊的人工智能插件,通用模塊用于定義深度學習系統調用的所有組件;
定義第一節點組和第二節點組的節點組模板包括:從通用模塊獲取所有組件,并在由所有組件限定的范圍內定義第一節點組和第二節點組的節點組模板。
在一些實施方式中,方法還包括:在定義第一節點組和第二節點組的節點組模板之前先創建包括驗證模塊的人工智能插件;多個組件包括控制組件和高可用組件;
校驗集群模板的配置合理性包括:使用驗證模塊檢查集群模板中多個第一節點和多個第二節點上分別將安裝的控制組件數量是否均為奇數、和/或將安裝的高可用組件是否均配置了宕機狀態檢測功能。
在一些實施方式中,響應于集群模板的配置合理而基于集群模板與多個第一節點和多個第二節點相對應地創建分別具有人工智能框架的多個虛擬機包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110651910.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:群組預測模型的測試方法、裝置和存儲介質及電子設備
- 下一篇:一種收卷裝置





