[發明專利]一種故障磁盤檢測與修復方法和裝置有效
| 申請號: | 201610525555.7 | 申請日: | 2016-07-05 |
| 公開(公告)號: | CN107577545B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 王世剛 | 申請(專利權)人: | 北京金山云網絡技術有限公司;北京金山云科技有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 李紅爽;栗若木 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 故障 磁盤 檢測 修復 方法 裝置 | ||
本發明公開了一種故障磁盤檢測與修復方法和裝置,該方法包括:根據系統日志解析出一個或多個故障磁盤設備名稱;根據解析出的故障磁盤設備名稱對每個故障磁盤進行定位與標識,并分別對每個故障磁盤進行故障檢測;針對每個故障磁盤的故障檢測結果對每個故障磁盤進行修復。通過本發明的方案,能夠對磁盤故障實時監測,快速對故障磁盤進行定位和自動修復,提高了工作效率,并支持多種不同的服務器與存儲業務,提高了兼容性。
技術領域
本發明涉及分布式存儲領域,尤其涉及一種故障磁盤檢測與修復方法和裝置。
背景技術
目前,大規模(超過2萬塊直連盤)分布式后端存儲每天發生磁盤錯誤的磁盤基本超過10塊。但故障磁盤無法及時和準確發現,嚴重影響線上服務。而且對于國內而言,中型的分布式存儲磁盤故障基本處于人工處理的階段,完全靠人工逐塊修復,人力消耗大,修復周期長,導致線上一些數據長期處于缺少數據副本的狀態;并且人工修復的方法判斷磁盤故障狀態及磁盤位置不準,增加了一些不必要的換盤成本;而且人工操作出錯概率高,威脅線上服務。大型的分布式存儲如百度云,基于定制的服務器,開發了一些基于自監察分析與報告技術SMART技術的底層磁盤工具,可以靠上層的分布式系統自動修復,但是對于不同機型、不同存儲服務的全自動修復支持仍不太好。
發明內容
為了解決上述問題,本發明提出了一種故障磁盤檢測與修復方法和裝置,能夠對磁盤故障實時監測,快速對故障磁盤進行定位和自動修復,提高了工作效率,并支持多種不同的服務器與存儲業務,提高了兼容性。
為了達到上述目的,本發明提出了一種故障磁盤檢測與修復方法,該方法包括:
根據系統日志解析出一個或多個故障磁盤設備名稱。
根據解析出的故障磁盤設備名稱對每個故障磁盤進行定位與標識,并分別對每個故障磁盤進行故障檢測。
針對每個故障磁盤的故障檢測結果對每個故障磁盤進行修復。
可選地,根據系統日志解析出一個或多個故障磁盤設備名稱包括:
通過每個磁盤設備上預先部署的代理AGENT對系統日志進行掃描;獲取系統日志中記載的每個磁盤設備的信息。
將每個磁盤設備的信息與預先配置的磁盤錯誤關鍵字列表中的磁盤錯誤關鍵字相比較。
獲取與磁盤錯誤關鍵字相匹配的一個或多個磁盤故障信息。
對系統日志進行解析,獲取與該一個或多個磁盤故障信息分別對應的故障磁盤設備名稱。
可選地,該方法還包括:當磁盤發生故障時,故障磁盤所在的故障磁盤設備實時向預設的數據庫服務器發送故障磁盤設備的狀態與操作報告;預設的數據庫服務器根據該狀態與操作報告生成磁盤故障信息;并將該磁盤故障信息記錄在系統日志中。
可選地,狀態與操作報告中包括以下一種或多種:故障發生時間、故障磁盤設備名稱、故障磁盤序列號SN和故障磁盤類型。
可選地,磁盤故障信息包括:與故障發生時間、故障磁盤設備名稱、故障磁盤SN和故障磁盤類型中的一種或多種信息相關的磁盤故障描述。
可選地,對系統日志進行解析,獲取與該一個或多個磁盤故障信息分別對應的故障磁盤設備名稱包括:對系統日志中包含的故障磁盤設備名稱與磁盤故障信息的對應關系進行解析,根據解析出的對應關系獲取與一個或多個磁盤故障信息分別對應的故障磁盤設備名稱。
可選地,根據解析出的故障磁盤設備名稱對每個故障磁盤進行定位與標識包括:
通過第一預設工具獲取所有磁盤設備信息,并通過第二預設工具集查詢所有磁盤設備中不同機框驅動下的磁盤信息列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山云網絡技術有限公司;北京金山云科技有限公司,未經北京金山云網絡技術有限公司;北京金山云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610525555.7/2.html,轉載請聲明來源鉆瓜專利網。





