[發明專利]一種多控制器系統的故障監控系統有效
| 申請號: | 201710096305.0 | 申請日: | 2017-02-22 |
| 公開(公告)號: | CN106802854B | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 苑忠科 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F11/32;G06F9/48 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 控制器 系統 故障 監控 | ||
本發明公開了一種多控制器系統的故障監控系統,在多控制器系統中的各控制器中設置故障監控裝置,所述故障監控裝置包括:策略設置模塊,硬件監控模塊,系統監控模塊,存儲功能監控模塊,共享在線統計模塊,監控系統狀態交互模塊,告警管理模塊,故障遷移模塊;能夠高效監控多控制器系統,及時發現故障信息,并準確做出相應處理,保證多控制器存儲業務的無縫切換以及數據安全,提高多控制器系統的使用率。
技術領域
本發明涉及服務器技術領域,特別涉及一種多控制器系統的故障監控系統。
背景技術
隨著存儲技術的發展,存儲的數據量不斷增大,從TB到PB再到EB數量級;存儲的性能也不斷提高,從STAT到SAS再到PCIE連接的SSD存儲介質。在多控系統中,對用戶數據安全性的要求也日漸嚴格,7X24小時不間斷工作,若實現多控制器存儲業務的無縫切換,需要及時處理多控系統中存儲空間不足和故障磁盤替換后通知用戶及時添加空間和替換磁盤,以及其他存儲軟件定義的故障發生時的故障。因此,如何高效監控多控系統,及時發現這些故障信息,是本領域技術人員需要解決的技術問題。
發明內容
本發明的目的是提供一種多控制器系統的故障監控系統,能夠高效監控多控制器系統,及時發現故障信息,并準確做出相應處理,保證多控制器存儲業務的無縫切換以及數據安全,提高多控制器系統的使用率。
為解決上述技術問題,本發明提供一種多控制器系統的故障監控系統,在多控制器系統中的各控制器中設置故障監控裝置,其中,所述故障監控裝置包括:
策略設置模塊,用于提供用戶設置各監控功能的告警閾值以及對應故障處理方式的接口;
硬件監控模塊,用于監控控制器、擴展柜、外接設備的硬件狀態和故障;
系統監控模塊,用于監控操作系統的狀態和故障;
存儲功能監控模塊,用于監控各存儲功能模塊的狀態和故障;
共享在線統計模塊,用于監控共享業務的在線狀態;
監控系統狀態交互模塊,用于設置監控系統狀態副本,接收所述硬件監控模塊、所述系統監控模塊、所述存儲功能監控模塊以及所述共享在線統計模塊的監控數據并通過管理鏈路與其它控制器的監控系統狀態副本進行數據交互;
告警管理模塊,用于根據所述硬件監控模塊、所述系統監控模塊、所述存儲功能監控模塊以及所述共享在線統計模塊得到的故障數據發送告警信息;
故障遷移模塊,用于根據所述監控數據執行對應的遷移任務;其中,所述遷移任務包括控制器間的負載遷移任務和故障遷移任務。
可選的,所述硬件監控模塊包括:
溫度監控單元,用于對控制器主板、cpu、背板進行溫度監控;
電氣監控單元,用于對控制器主板的電壓和電流進行監控,并對控制器的電源進行監控;
擴展柜監控單元,用于對擴展柜進行監控,當監控到擴展柜離線或擴展柜發生錯誤時,向所述告警管理模塊發送告警數據。
可選的,所述系統監控模塊包括:
使用率監控單元,用于對cpu以及內存的使用率進行監控;
異常程序監控單元,用于對系統panic程序和oops程序進行監控;
分區狀態監控單元,用于對各系統分區的使用率和系統分區文件系統錯誤進行監控。
可選的,所述存儲功能監控模塊包括:
存儲功能監控單元,用于對磁盤添加、移除、故障狀態進行監控,并監控RAID狀態,在降級時進行熱備替換并向所述告警管理模塊發送告警數據,且在RAID狀態離線時向所述告警管理模塊發送告警數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710096305.0/2.html,轉載請聲明來源鉆瓜專利網。





