[發明專利]一種面向復雜系統的監控和故障自愈系統及其方法在審
| 申請號: | 201911256239.4 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN111181767A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 楊科;艾國紅;黎志碧;唐博;陸陳;馮大川 | 申請(專利權)人: | 中國航空工業集團公司成都飛機設計研究所 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26 |
| 代理公司: | 中國航空專利中心 11008 | 代理人: | 王中興 |
| 地址: | 610091 四川省成都市青羊區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 復雜 系統 監控 故障 自愈 及其 方法 | ||
1.一種面向復雜系統的監控和故障自愈系統,其特征為:所述系統包括資源與應用監控模塊、業務關系模型模塊、故障診斷分析模塊、故障處理模塊,其中:
資源與應用監控模塊:負責對主機、中間件、應用服務層及業務日志進行監控指標數據采集;
業務關系模型模塊:負責業務服務拓撲關系管理和服務部署信息管理;
故障診斷分析模塊:負責業務服務告警處理及故障診斷,診斷完成后,將故障節點依賴的對象入待檢測隊列,由檢測服務進行指標數據分析,判定是否異常,如判定異常,則通知故障處理模塊處理;所述故障診斷,依據:a.資源與應用監控模塊到的監控指標數據;b.業務關系模型模塊中的業務服務拓撲關系和服務部署信息;
故障處理模塊:負責啟動故障恢復操作作業。
2.根據權利要求1所述的監控和故障自愈系統,其特征為:所述故障處理模塊中,故障恢復操作作業包括服務進程重啟、磁盤目錄清理、服務器主機重啟;故障恢復操作作業通過安裝在主機上的遠程管控Agent進行執行。
3.根據權利要求2所述的監控和故障自愈系統,其特征為:所述故障恢復操作作業描述包括作業名、執行對象、作業腳本。
4.根據權利要求1所述的監控和故障自愈系統,其特征為:所述故障診斷分析模塊中,異常的判定方式包括靜態閾值、環比、是否可用。
5.一種基于權利要求1所述系統的監控和故障自愈方法,其特征為所述方法包括以下步驟:
步驟一,通過部署在被監控對象上的數據采集Agent,周期性進行監控指標數據采集;所述被監控對象包括主機、中間件、應用服務層;
步驟二,運維人員通過業務關系模型模塊,構建各應用系統業務服務拓撲關系信息和服務部署信息;
步驟三,故障診斷分析模塊定時對應用服務層的業務服務可用性進行探測,如發現服務不可用,啟動檢測服務作業,依據業務關系模型數據,將故障節點依賴的對象入待檢測隊列,檢測服務依次取隊列對象進行監控指標數據分析,判定指標數據是否異常,如判定異常,則發送故障告知消息通知故障處理模塊處理;
步驟四,故障處理模塊依據故障告知消息,通過遠程管控Agent,執行故障恢復操作作業。
6.根據權利要求5所述的監控和故障自愈方法,其特征為:所述步驟三中,將故障節點依賴的對象入待檢測隊列的過程如下:針對故障對象節點,在業務服務拓撲關系圖中,按廣度優先搜索算法搜索依賴應用服務對象節點,入待檢測隊列,同時依據服務部署信息,將依賴服務對象節點的部署位置對象,也入待檢測隊列。
7.根據權利要求5所述的監控和故障自愈方法,其特征為:所述步驟一中,針對不同監控對象,進行預設監控指標數據采集,其中主機監控指標包括CPU利用率、內存利用率、磁盤空間占用率、網絡流量、TCP連接數、進程數;中間件監控指標包括進程存活、JVM占用內存大小、會話數、線程池大小;應用服務層監控指標包括服務可用性和響應時間,通過HTTP/TCP對目標服務進行服務撥測。
8.根據權利要求7所述的監控和故障自愈方法,其特征為:所述步驟一中,采集后的監控數據存入資源與應用監控模塊的監控數據庫,其數據點格式為:監控數據格式=監控對象名+標簽+指標名+監控值+時間戳。
9.根據權利要求5所述的監控和故障自愈方法,其特征為:所述步驟三中,所述故障告知消息包括故障節點,異常類型和故障恢復操作作業名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國航空工業集團公司成都飛機設計研究所,未經中國航空工業集團公司成都飛機設計研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911256239.4/1.html,轉載請聲明來源鉆瓜專利網。





