[發明專利]一種云環境下自動故障處理的方法及系統在審
| 申請號: | 202010737436.4 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111865695A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 陳玉林;蔡衛衛;宋偉;申嘉童 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L29/08;G06F9/455 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 陳婷婷 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 環境 自動 故障 處理 方法 系統 | ||
1.一種云環境下自動故障處理的方法,其特征在于,在云環境中的用戶層面上搭建虛擬環境,通過指標采集、指標獲取及存儲、異常檢測、異常通知、異常處理、恢復檢測和結果反饋,實現自動故障處理。
2.根據權利要求1所述的一種云環境下自動故障處理的方法,其特征在于,所述指標采集,進行數據采集獲取環境信息,包括瞬時值、累加值、方差值和絕對值;
所述指標獲取及存儲,周期性請求所述指標采集得到的指標信息,所述指標信息是一段時間內存儲在時序數據庫中;
所述異常檢測,通過運算檢查收集的指標是否存在異常;
所述異常通知,將異常信息導出,使用消息隊列的方式將告警信息發送出去;
所述異常處理,訂閱告警信息,捕獲到異常消息后從異常消息中提取出有用的信息,根據類型做相應的處理;
所述恢復檢測,通過長循環任務實現恢復的判斷,在異常時可選擇再次引發故障處理或者將消息反饋;
所述結果反饋,訂閱異常處理的反饋消息。
3.根據權利要求1或2所述的一種云環境下自動故障處理的方法,其特征在于,該方法的具體實現步驟如下:
1)、進行指標數據采集;
2)、將采集的數據發送至數據存儲端,數據存儲端對信息進行處理后采樣保存信息;
3)、通過對指定指標進行狀態推斷,發送告警消息到消息隊列;
4)、不同的告警信息發送給不同的處理單元,或將部分信息直接告知運維人員;
5)、通過使用虛機處理技術,包括熱遷移、冷遷移或/和疏散,對虛擬機運行故障進行處理;
6)、使用長循環的方式檢測恢復異常處理的結果,并對失敗的處理重新請求或者發送信息到反饋模塊;
7)、所述反饋模塊記錄處理結果信息,并根據配置發送通知給處理人員;
8)、記錄操作流程和處理結果。
4.根據權利要求3所述的一種云環境下自動故障處理的方法,其特征在于,所述指標數據采集使用接口化的編程方式,被動發起采集請求。
5.根據權利要求3所述的一種云環境下自動故障處理的方法,其特征在于,所述數據存儲端的存儲后端使用時序數據庫,用中心化的模塊進行統一的數據獲取和存儲。
6.根據權利要求3所述的一種云環境下自動故障處理的方法,其特征在于,通過調度機制處理故障,不同優先級的故障分級處理,使用異步的方式執行故障處理邏輯。
7.一種云環境下自動故障處理的系統,其特征在于,包括指標采集模塊、指標獲取及存儲模塊、異常檢測模塊、異常通知模塊、異常處理模塊、恢復檢測模塊、結果反饋模塊和日志模塊,在物理環境上搭建虛擬環境,并將上述模塊集成到系統中。
8.根據權利要求7所述的一種云環境下自動故障處理的系統,其特征在于,
指標采集模塊用于獲取環境的信息,所述信息包括瞬時值、累加值、方差值以及絕對值;
指標獲取及存儲模塊周期性請求指標采集模塊得到指標信息,這些采集的信息是一段時間內存儲在時序數據庫中的;
異常檢測模塊通過運算檢查收集的指標是否存在異常;
異常通知模塊用于將異常信息導出,使用消息隊列的方式將告警信息發送出去;
異常處理模塊訂閱告警信息,異常通知模塊發現有異常時發送異常消息,異常處理模塊捕獲到消息后從異常消息中提取出有用的信息,根據類型的不同,做不同的處理;
恢復檢測模塊通過長循環任務來實現恢復的判斷,在異常時可以選擇再次引發故障處理或者將消息反饋;
結果反饋模塊訂閱異常處理的反饋消息;
日志模塊用于記錄故障詳情和故障恢復過程中的關鍵步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010737436.4/1.html,轉載請聲明來源鉆瓜專利網。





