[發明專利]一種集群存儲中磁盤故障的預防及檢測方法在審
| 申請號: | 201410011802.2 | 申請日: | 2014-01-11 |
| 公開(公告)號: | CN103761180A | 公開(公告)日: | 2014-04-30 |
| 發明(設計)人: | 王恩東;文中領;張立強;袁冬 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34;G06F3/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250101 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 集群 存儲 磁盤 故障 預防 檢測 方法 | ||
?
技術領域
本發明涉及計算機存儲領域,具體地說是一種集群存儲中磁盤故障的預防及檢測方法。
背景技術
隨著的互聯網時代已經到來:社交網絡、微博、位置服務等面向普通互聯網用戶的交互型網站正蓬勃興起,如Google、Facebook、Twitter以及國內的人人網、微博等,向數以億計的用戶提供基于互聯網和無線網絡的交互服務。遍布全世界的互聯網用戶每天都進行多種多樣的交互,隨時都在制造各種各樣的數據,這些數據的數量是單機時代數據量的數倍。
為存儲這些數據,各互聯網公司在世界各地建立了龐大的數據中心,單個數據中心的主機數量在幾百至數萬的數量級不等。來自Google的信息表明,Google在全球有數十個數據中心和過千萬臺服務器,存儲其全球用戶每天產生的海量數據。在數據中心內部,數據的儲存最終需要存儲到磁盤上,因此,磁盤的可靠性與數據的可靠性密切相關。
目前,一個數據中心通常包括成千上萬塊磁盤,在如此龐大的數量下,磁盤的故障被視為一種常態而對待,因此數據冗余功能也成為了基本功能。在磁盤發生故障的時候,通過冗余的數據,可以保證數據的可靠性,同時還可以重新建立數據的冗余,以便應對后續的磁盤故障。目前常用的數據冗余功能包括副本和RAID兩種方式,前者主要用于跨數據節點的容災、后者用于節點內部的容災。這兩種方式都能保證部分磁盤損壞(容災限度內)的情況下,數據仍然可用。
數據的冗余機制雖然能夠在磁盤發生故障時在一定程度上保證數據的安全性,但仍然存在一定的風險,特別是在磁盤發生故障后的冗余數據重建過程中。以雙副本數據冗余策略為例,假設一份數據存在A和B兩個副本,如果A副本由于磁盤故障丟失后,需要根據B副本重建A副本。此時,數據實際上只存在一份有效的拷貝(B副本)。如果在A副本的重建過程中,B副本所在的磁盤也發生了故障,則有可能導致數據的徹底丟失。改善這一現象固然可以通過增加數據冗余度(例如增加到三副本)進行改善,但會造成額外的空間利用率的損失。
導致數據重建過程中數據安全性較為脆弱的原因,主要是因為現有的數據容災機制都是一種基于事后的處理方式,即只有當磁盤發生了故障、無法使用后才會進行數據冗余的重建,而無法實現識別潛在的磁盤故障,因此存在一個數據安全系數較低的冗余數據重建階段。
另一方面,磁盤的損壞通常是一個逐漸發生的過程,其前期特征通常是磁盤的性能出現較大幅度的下降,體現在部分磁盤請求需要較長時間完整或者平均吞吐量出現明顯的降低。如果能夠通過這些前期特征提前識別出可能發生故障的磁盤,并且在其完全故障前就采取相應的策略,則可以極大的提高數據的安全性。
發明內容
本發明的技術任務是提供一種集群存儲中磁盤故障的預防及檢測方法。
本發明的技術任務是按以下方式實現的,該預防及檢測方法包括磁盤請求監控模塊、磁盤故障判斷模塊和磁盤故障處理模塊,所述的檢測方法步驟如下:
將每個磁盤對應設置一個磁盤請求監控模塊,磁盤請求監控模塊監控磁盤請求處理過程中每個請求的響應速度,當請求花費的時間超過了規定的閾值時,則磁盤請求監控模塊會向磁盤故障判斷模塊報告其所監控的磁盤出現了請求響應緩慢的情況,并給出最慢的請求所花費的時間;磁盤故障判斷模塊收集磁盤請求監控模塊報告的磁盤請求超時情況,并據此判斷是否可能存在潛在故障磁盤,如果發現只有極個別的磁盤發生了超時,則判斷該磁盤是潛在故障磁盤;則會發送信息通知磁盤故障處理模塊對該磁盤進行處理。
所述的磁盤故障判斷模塊判斷磁盤是否存在潛在故障的依據主要是根據集群存儲的負載平衡原理。
所述的磁盤故障處理模塊處理潛在故障磁盤有以下處理方式:在集群狀態描述中,將該磁盤標記為潛在故障;發送告警信息,通知系統維護人員該磁盤存在潛在故障;降低該磁盤的權重,減少該磁盤的IO負載,延緩磁盤發生故障的時間;如果集群壓力較小,將該磁盤的數據重新分布到其它磁盤中。
本發明的一種集群存儲中磁盤故障的預防及檢測方法和現有技術相比,能夠在磁盤故障前,預先判斷出可能發生故障的磁盤,并對這些磁盤執行自動處理操作,包括將該磁盤標記為潛在故障、激活數據冗余的重建、向維護人員發送告警信息等;通過這種方法可以有效的預防磁盤故障導致的數據丟失,提高系統的數據可靠性。
附圖說明
附圖1為一種集群存儲中磁盤故障的預防及檢測方法的示意圖。
具體實施方式
實施例1:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410011802.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:壓縮彈簧自動分離分揀間距排序輸出裝置
- 下一篇:衣物處理設備





