[發明專利]一種Lustre并行文件系統錯誤報警方法及其系統有效
| 申請號: | 201210348309.0 | 申請日: | 2012-09-18 |
| 公開(公告)號: | CN102902615A | 公開(公告)日: | 2013-01-30 |
| 發明(設計)人: | 劉冠川;王勇;秦東明;何牧君;楊亮;張新風;陳飛;劉超;呂永安 | 申請(專利權)人: | 曙光信息產業(北京)有限公司 |
| 主分類號: | G06F11/32 | 分類號: | G06F11/32;G06F11/34;G06F17/30;H04L29/06 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 100193 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 lustre 并行 文件系統 錯誤 報警 方法 及其 系統 | ||
技術領域
本發明涉及計算機領域,具體涉及一種Lustre并行文件系統錯誤報警方法及其系統。
背景技術
大規模超算中心一般環境比較復雜,當Lustre并行文件系統發生故障時,關聯的因素非常多,通過人工的方法去查找日志等信息來定位問題,通常會耗費大量的時間,故障無法及時得到解決。目前Lustre的監控軟件主要用LMT。LMT能夠通過Lustre的一些統計信息接口較好的呈現Lustre的歷史使用狀況,如當前讀寫速率、空間使用率等等。
LMT能提供一些文件系統IO流量、使用率等信息的統計,但無法進行對系統運行環境、Lustre日志等信息的分析和報警,對于Lustre文件系統運行維護并沒有起到太大作用。當Lustre文件系統出現故障時仍然需要較長的時間去分析定位問題,如果管理員不在現場,故障就難以及時發現和解決。
發明內容
針對現有技術的不足,本發明提供一種Lustre并行文件系統錯誤報警方法及其系統,可以及時的發現故障并通知管理員,減少經濟損失。
本發明提供的一種Lustre并行文件系統錯誤報警方法,其改進之處在于,所述方法包括如下步驟:
(1)監控模塊對OSS日志進行周期性掃描;
(2)分析所述日志信息,判斷是否存在故障信息,并將所述故障信息生成告警報告;
(3)嚴重的故障生成單獨的報告供程序進一步分析,用于定位問題和自動處理。最后再和普通告警信息匯總寫入txt文件中,通過mail中轉站發送給管理員。。
其中,步驟(1)所述oss日志包括系統網絡質量、Lustre日志信息和heartbeat日志信息。
其中,步驟(2)所述故障信息包括存儲故障信息或導致存儲出現故障的信息。
其中,步驟(3)所述定位過程包括如下步驟:
1)根據嚴重故障定位危險客戶端,生成待重啟節點列表;
2)判斷危險客戶端是否為僵死客戶端,是則重啟客戶端,否則不予處理,待觀察。
3)判斷重啟的客戶端是否有異常,是則將異常信息通過mail中轉站發送給管理員,否則屬于正常重啟,將操作成功日志寫入LAToolkit日志中。
其中,步驟2)重啟客戶端通過向客戶端的管理模塊控制客戶端的電源,將客戶端重啟。
其中,步驟(3)所述嚴重故障是指會直接導致存儲系統故障的一種類型,其包括出現導致存儲服務器死機的故障、出現導致存儲服務器后端磁盤出現只讀的故障、主備存儲服務器間出現切換故障或主備服務器間心跳線故障。
其中,步驟(3)所述普通故障是指不會直接導致存儲系統的故障的一種類型,其包括網絡輕微丟包、某個郵件服務器故障或日志掃描時間過長現象。
本發明基于另一目的提供的一種Lustre并行文件系統錯誤報警系統,其改進之處在于,所述報警系統包括LAToolkit服務端、存儲客戶端集群、郵件服務器集群和LAToolkit客戶端;
所述LAToolkit服務端、所述存儲客戶端集群和所述LAToolkit客戶端通過存儲網進行數據的交換和存儲;
所述LAToolkit服務端、所述存儲客戶端集群、所述郵件服務器集群和所述LAToolkit客戶端通過存儲管理網進行數據管理;
所述LAToolkit服務端和所述存儲客戶端集群通過電源管理網進行服務器的重啟。
其中,所述存儲客戶端集群用于存儲客戶端集群掛載存儲系統;
所述郵件服務器集群用于LAToolkit向外發送告警郵件;
所述LAToolkit客戶端部署于Lustre存儲服務器(OSS)上,用于采集OSS日志及其他判斷存儲系統狀態的信;
所述LAToolkit服務端部署于Lustre元數據(MDS)/管理(MGS)服務器上,用于處理LAToolkit客戶端收集到的信息和處理其他LAToolkit操作。
其中,所述報警系統包括管理終端,所述管理終端通過所述存儲管理網對所述LAToolkit服務端、所述存儲客戶端集群、所述郵件服務器集群和所述LAToolkit客戶端進行控制。
其中,所述LAToolkit服務端和所述所述LAToolkit客戶端為冗余設置。
與現有技術比,本發明的有益效果為:
本發明故障信息生成txt文件再轉給管理員,其方便閱讀,能直接查看,且能長期保存作為歷史記錄供查閱。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曙光信息產業(北京)有限公司,未經曙光信息產業(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210348309.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種節能環保垃圾焚燒爐
- 下一篇:一種雙旋流式低熱值燃氣燃燒器





