[發明專利]高性能計算集群系統的可靠性評估方法及評估裝置在審
| 申請號: | 201810563134.2 | 申請日: | 2018-06-04 |
| 公開(公告)號: | CN108989082A | 公開(公告)日: | 2018-12-11 |
| 發明(設計)人: | 劉瑞賢;許濤;張晉鋒 | 申請(專利權)人: | 曙光信息產業(北京)有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;G06F11/20 |
| 代理公司: | 北京德恒律治知識產權代理有限公司 11409 | 代理人: | 章社杲;盧軍峰 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 高性能計算集群 狀態轉移圖 可靠性評估 評估裝置 風險控制 控制系統 可靠度 模塊化 遍歷 鏈條 評估 全局 | ||
本發明公開了一種高性能計算集群系統的可靠性評估方法及評估裝置,該可靠性評估方法包括:生成高性能計算集群系統的各個子系統的狀態轉移圖,其中,多個子系統的狀態轉移圖互不相同;遍歷各個子系統的狀態轉移圖以計算高性能計算集群系統的可靠度。本發明的上述技術方案,通過模塊化來控制系統風險,獨立評估高性能計算集群系統的各子系統風險,通過狀態轉移圖形成的風險控制鏈條能夠實現全局風險的準確判斷。
技術領域
本發明涉及計算機技術領域,具體來說,涉及一種高性能計算集群系統的可靠性評估方法及評估裝置。
背景技術
任何系統都存在故障,可靠性高的系統只是平均故障時間間隔更長。高性能計算HPC集群系統指能夠執行一般個人電腦無法處理的大資料量與高速運算的電腦,能夠達到每秒萬億次級的計算速度。HPC集群系統作為目前業內主流的計算承載系統,其穩定性一直備受工業界關注。因此,評估HPC集群系統穩定運行狀態是非常重要的工作。
傳統的評估方法是通過監控程序收集系統各部件傳感器數據,通過實時分析實現對系統穩定性能的評估,以決定目前系統運行的潛在風險。目前的風險評估技術主要以各部件傳感器信息作為參考,實時監控系統各部件的工作狀態,只能被動響應關鍵風險的發生。
HPC集群系統作為承載計算的主體,計算能力是衡量集群的重要指標,風險控制相對來說處于次要地位,不作為主要的評測參數。隨著業務系統的規模的增加,部件失效帶來的風險會指數級放大,但是目前的集群管理局限在被動響應層面,通過判斷傳感器數據形成對故障點的檢測,對故障點人工分類,評估風險對集群的影響程度、并實施人工干預,從而對風險的預估和判定缺乏整體思路。
針對相關技術中的上述問題,目前尚未提出有效的解決方案。
發明內容
針對相關技術中的上述問題,本發明提出一種高性能計算集群系統的可靠性評估方法,通過對各子系統風險的預判,形成整體系統風險控制鏈,獲取最大的系統可靠度。
本發明的技術方案是這樣實現的:
根據本發明的一個方面,提供了一種高性能計算集群系統的可靠性評估方法,包括:
生成高性能計算集群系統的各個子系統的狀態轉移圖,其中,多個子系統的狀態轉移圖互不相同;
遍歷各個子系統的狀態轉移圖以計算高性能計算集群系統的可靠度。
根據本發明的實施例,多個子系統包括n級串聯子系統、熱備份子系統、冷備份子系統、n級選擇子系統之中的至少一個。
根據本發明的實施例,在n級串聯子系統中,一個串聯部件的風險使得n級串聯子系統發生故障;在熱備份子系統中,兩個熱備份部件同時工作,一個熱備份部件正常運行使得熱備份子系統正常運行;在冷備份子系統中,一個冷備份部件正常工作使得冷備份子系統正常運行;在n級選擇子系統中,至少一個選擇部件正常運行使得n級選擇子系統正常運行。
根據本發明的實施例,n級串聯子系統包括高性能計算集群系統的工作業務流。
根據本發明的實施例,熱備份子系統包括高性能計算集群系統的登錄節點。
根據本發明的實施例,冷備份子系統包括高性能計算集群系統的存儲節點。
根據本發明的實施例,n級選擇子系統包括高性能計算集群系統的計算節點。
根據本發明的另一方面,提供了一種高性能計算集群系統的可靠性評估裝置,包括:
狀態轉移圖生成模塊,用于生成高性能計算集群系統的各個子系統的狀態轉移圖,其中,多個子系統的狀態轉移圖互不相同;
可靠度計算模塊,用于遍歷各個子系統的狀態轉移圖以計算高性能計算集群系統的可靠度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曙光信息產業(北京)有限公司,未經曙光信息產業(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810563134.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:管理節點的方法和裝置
- 下一篇:云環境下基于混合策略的故障檢測性能優化方法





