[發明專利]計算集群錯誤預測方法及相關設備有效
| 申請號: | 202011160403.4 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112306831B | 公開(公告)日: | 2022-12-27 |
| 發明(設計)人: | 崔坤磊;劉羽 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 北京眾達德權知識產權代理有限公司 11570 | 代理人: | 梁凱 |
| 地址: | 215000 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 計算 集群 錯誤 預測 方法 相關 設備 | ||
本申請實施例提供了一種計算集群錯誤預測方法及相關設備,可以低成本、高效地進行計算集群的錯誤預測。該方法包括:根據上述計算集群的歷史信息對上述計算集群的錯誤類型進行分類;以預定時間為間隔,按照預設順序統計并排列上述計算集群的每個上述錯誤類型的發生數量,其中,上述預設順序為前一個錯誤類型會直接影響與其緊鄰的下一個錯誤類型的發生;以上述預定時間為間隔,統計每個上述錯誤類型的發生概率和下一個時間間隔時每個錯誤類型的遺留概率;根據上述每個上述錯誤類型的發生概率和下一個時間間隔時每個上述錯誤類型的遺留概率,基于生長曲線函數模型對上述計算集群進行錯誤預測,以獲得上述計算集群未來每個上述錯誤類型的發生數量。
技術領域
本申請涉及計算集群技術領域,尤其涉及一種計算集群錯誤預測方法及相關設備。
背景技術
大規模科學計算需求的不斷增長推動著超級計算機系統快速發展。隨著計算機系統規模的增大,其組成部件不斷增加、軟硬件結構日益復雜、工作模式快速變化,用戶數量日益增加,超級計算機系統平均無故障時間越來越短,可靠性問題日益突出。構成上述超級計算機系統的大型計算集群的集群管理和錯誤解決給集群管理員帶來了巨大的挑戰。
目前,計算集群的錯誤預測和管理解決方案是基于計算機集群各部件硬件功耗工況來統計分析集群的錯誤,但這種方法需要增加大量額外的硬件用于觀測計量集群各節點芯片及整體的功耗,對于上萬節點的計算集群這是一筆巨大的成本,同時也增加了計算集群實施的復雜度,對管理員也會增加額外的專業知識要求。
發明內容
本申請實施例提供了一種計算集群錯誤預測方法及相關設備,可以低成本、高效地進行計算集群的錯誤預測。
本申請實施例的第一方面提供了一種計算集群錯誤預測方法,包括:
根據所述計算集群的歷史信息對所述計算集群的錯誤類型進行分類;
以預定時間為間隔,按照預設順序統計并排列所述計算集群的每個所述錯誤類型的發生數量,其中,所述預設順序為前一個錯誤類型會直接影響與其緊鄰的下一個錯誤類型的發生;
以所述預定時間為間隔,統計每個所述錯誤類型的發生概率和下一個時間間隔時每個所述錯誤類型的遺留概率;
根據所述每個所述錯誤類型的發生概率和下一個時間間隔時每個所述錯誤類型的遺留概率,基于生長曲線函數模型對所述計算集群進行錯誤預測,以獲得所述計算集群未來每個所述錯誤類型的發生數量。
可選地,所述錯誤類型包括:基礎錯誤類、硬件錯誤及異常、系統級錯誤及異常、應用異常和節點異常,其中,前一個錯誤類型會直接影響與其緊鄰的下一個錯誤類型的發生。
可選地,所述錯誤類型的遺留概率為所述錯誤類型的錯誤未能在當前時間間隔內解決,從而遺留到下一個時間間隔的概率,所述錯誤類型遺留到下一個時間間隔錯誤會對下一個時間間隔內與所述錯誤類型緊鄰的下一個錯誤類型的發生造成直接影響。
可選地,所述根據所述每個所述錯誤類型的發生概率和下一個時間間隔時每個所述錯誤類型的遺留概率,基于生長曲線函數模型對所述計算集群進行錯誤預測,以獲得所述計算集群未來每個所述錯誤類型的發生數量,具體包括:
根據所述每個所述錯誤類型的發生概率和下一個時間間隔時每個所述錯誤類型的遺留概率,基于生長曲線函數模型矩陣對所述計算集群進行錯誤預測,以獲得所述計算集群未來每個所述錯誤類型的發生數量。
可選地,所述時間間隔為1周。
可選的,所述計算集群的歷史信息的統計窗口期為1年。
可選的,所述根據所述每個所述錯誤類型的發生概率和下一個時間間隔時每個所述錯誤類型的遺留概率,基于生長曲線函數模型對所述計算集群進行錯誤預測,以獲得所述計算集群未來每個所述錯誤類型的發生數量之前,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011160403.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種釬焊夾管的板翅式換熱器
- 下一篇:一種用于金屬微絲拉拔的超聲波振子





