[發明專利]一種分布式存儲集群的硬盤故障處理方法、系統及裝置在審
| 申請號: | 201911149378.7 | 申請日: | 2019-11-21 |
| 公開(公告)號: | CN111104239A | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 張大帥 | 申請(專利權)人: | 北京浪潮數據技術有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 侯珊 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 存儲 集群 硬盤 故障 處理 方法 系統 裝置 | ||
本發明公開了一種分布式存儲集群的硬盤故障處理方法,首先獲取分布式存儲集群內每個存儲服務器中各硬盤的讀寫IO時延信息,然后根據各硬盤的讀寫IO時延信息相應判斷各硬盤是否出現故障,以將出現故障的硬盤從分布式存儲集群中進行隔離,從而避免故障盤引起集群數據重構,影響集群業務性能。本發明還公開了一種分布式存儲集群的硬盤故障處理系統及裝置,與上述硬盤故障處理方法具有相同的有益效果。
技術領域
本發明涉及分布式存儲集群領域,特別是涉及一種分布式存儲集群的硬盤故障處理方法、系統及裝置。
背景技術
目前,分布式存儲集群系統通常包括多個存儲服務器,這些存儲服務器組成一個集群統一對外提供存儲服務。每個存儲服務器均包含多個硬盤,多個硬盤共同實現存儲服務器的存儲服務。但是,若集群中某個硬盤出現故障,則會引發集群進行數據重構,從而占用集群資源,影響整個集群的業務性能。
因此,如何提供一種解決上述技術問題的方案是本領域的技術人員目前需要解決的問題。
發明內容
本發明的目的是提供一種分布式存儲集群的硬盤故障處理方法、系統及裝置,可將出現故障的硬盤從分布式存儲集群中進行隔離,從而避免故障盤引起集群數據重構,影響集群業務性能。
為解決上述技術問題,本發明提供了一種分布式存儲集群的硬盤故障處理方法,應用于包含多個存儲服務器的分布式存儲集群,包括:
獲取每個所述存儲服務器中各硬盤的讀寫IO時延信息;
根據目標硬盤的讀寫IO時延信息判斷所述目標硬盤是否出現故障;其中,所述目標硬盤為各所述硬盤中任一硬盤;
若是,則將所述目標硬盤從所述分布式存儲集群中進行隔離。
優選地,所述根據目標硬盤的讀寫IO時延信息判斷所述目標硬盤是否出現故障的過程,包括:
根據目標硬盤的讀寫IO時延信息判斷所述目標硬盤是否出現讀寫IO中斷;
若是,則確定所述目標硬盤出現故障。
優選地,所述根據各所述硬盤的讀寫IO時延信息相應判斷各所述硬盤是否出現故障的過程,還包括:
根據目標硬盤的讀寫IO時延信息判斷所述目標硬盤的讀寫IO時延是否連續N次超過預設時間閾值;其中,N為正整數;
若是,則確定所述目標硬盤出現故障。
優選地,所述將所述目標硬盤從所述分布式存儲集群中進行隔離的過程,包括:
將所述目標硬盤所在的存儲服務器開啟維護模式,并將所述目標硬盤對應的OSD服務從所述分布式存儲集群中移除。
優選地,所述硬盤故障處理方法還包括:
在判斷出所述目標硬盤出現故障后,向上層管理設備發送所述目標硬盤的故障信息。
優選地,所述向上層管理設備發送所述目標硬盤的故障信息的過程,包括:
根據預設管理郵箱和/或預設手機號碼和/或snmp Trap客戶端的IP地址,向所述預設管理郵箱發送告警郵件和/或向所述預設手機號碼發送告警短信和/或向所述snmpTrap客戶端發送告警信息。
為解決上述技術問題,本發明還提供了一種分布式存儲集群的硬盤故障處理系統,應用于包含多個存儲服務器的分布式存儲集群,包括:
OSD服務模塊,用于獲取每個所述存儲服務器中各硬盤的讀寫IO時延信息;
磁盤檢測模塊,用于根據目標硬盤的讀寫IO時延信息判斷所述目標硬盤是否出現故障;若是,則將所述目標硬盤從所述分布式存儲集群中進行隔離;其中,所述目標硬盤為各所述硬盤中任一硬盤。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京浪潮數據技術有限公司,未經北京浪潮數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911149378.7/2.html,轉載請聲明來源鉆瓜專利網。





