[發明專利]一種AI平臺的集群擴容異常處理方法有效
| 申請號: | 202010154804.2 | 申請日: | 2020-03-08 |
| 公開(公告)號: | CN111478796B | 公開(公告)日: | 2022-12-16 |
| 發明(設計)人: | 劉曉健 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | H04L41/0659 | 分類號: | H04L41/0659;H04L41/0859;H04L41/0896;H04L43/50 |
| 代理公司: | 濟南舜源專利事務所有限公司 37205 | 代理人: | 張營磊 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 ai 平臺 集群 擴容 異常 處理 方法 | ||
1.一種AI平臺的集群擴容異常處理方法,其特征在于,包括如下步驟:
S1.在AI平臺設置適配測試腳本、擴容腳本和異常處理腳本;
S2.AI平臺接收到集群擴容請求后,執行適配測試腳本;
S3.配置適配測試腳本檢查待擴容節點是否符合集群節點要求,并在符合集群節點要求時,保存集群擴容前配置,啟動擴容腳本進行集群擴容;步驟S3具體步驟如下:
S31.配置適配測試腳本獲取待擴容節點列表,并從待擴容節點列表中獲取所有待擴容節點的IP信息,生成待擴容節點IP列表;
S32.配置適配測試腳本遍歷待擴容節點IP列表,獲取每個待擴容節點的信息,并與集群中現有節點信息進行比較判斷是否符合AI平臺安裝的適配要求;
若否,適配檢測失敗,定位待擴容節點的問題;
若是,保存集群擴容前配置,啟動擴容腳本進行集群擴容,進入步驟S33;
S33.判斷集群擴容是否成功;
若否,進入步驟S4;
若是,進入步驟S34;
S34.AI平臺集群提供正常集群服務;
S4.當集群擴容失敗時,配置異常處理腳本判斷AI平臺的集群服務是否可以正常運行,并在AI平臺的集群服務不能正常運行時,根據集群擴容前配置恢復原有AI平臺集群配置;步驟S4具體步驟如下:
S41.集群擴容失敗,啟動異常處理腳本;
S42.異常處理腳本判斷AI平臺集群的各服務單元pod是否正常;
若是,進入步驟S43;
若否,進入步驟S44;
S43.配置異常處理腳本判斷是否需要恢復原有AI平臺集群配置;
若是,進入步驟S44;
若否,返回步驟S34;
S44.配置異常處理腳本根據集群擴容前配置恢復原有AI平臺集群配置;步驟S44具體步驟如下:
S441.AI平臺集群存在異常的服務單元pod,且異常時長達到設定閾值,配置異常處理腳本進行異常回滾;
S442.配置異常處理腳本將擴容節點列表中對應節點安裝的數據采集工具組件、網絡文件系統掛載以及集群環境進行卸載;
S443.配置異常處理腳本獲取集群擴容前配置,并更新到AI平臺集群配置文件;
S444.配置異常處理腳本重啟容器組件,重啟網絡插件恢復節點通信,重啟異常服務單元pod,直至AI平臺的集群服務恢復正常;
步驟S444中,配置異常處理腳本定位一個異常服務單元pod進行重啟,并判斷AI平臺集群服務是否恢復正常;
若是,配置異常處理腳本停止異常回滾,返回步驟S34;
若否,配置異常處理腳本定位到下一個異常服務單元pod進行重啟。
2.如權利要求1所述的AI平臺的集群擴容異常處理方法,其特征在于,所述適配測試腳本、擴容腳本和異常處理腳本均采用ansible腳本。
3.如權利要求1所述的AI平臺的集群擴容異常處理方法,其特征在于,步驟S32中,啟動擴容腳本進行集群擴容通過如下步驟實現:
配置擴容腳本依次在待擴容節點安裝網絡時鐘互信、網絡文件系統掛載、GPU驅動、集群環境、數據采集工具組件以及GPU標簽打入操作。
4.如權利要求1所述的AI平臺的集群擴容異常處理方法,其特征在于,所待擴容節點信息包括密碼、系統版本號、GPU類型、卡數、CPU核數以及內存信息。
5.如權利要求1所述的AI平臺的集群擴容異常處理方法,其特征在于,步驟S43中,配置異常處理腳本獲取測試人員的設置,根據測試人員的設置判斷是否需要恢復原有AI平臺集群配置。
6.如權利要求1所述的AI平臺的集群擴容異常處理方法,其特征在于,所述集群采用kubernetes集群,所述數據采集工具組件采用telegraf數據采集工具,所述網絡插件采用calico網絡插件;
步驟S441中通過計時器計算服務單元pod的異常時長。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010154804.2/1.html,轉載請聲明來源鉆瓜專利網。





