[發明專利]雙控制器磁盤陣列的動態故障檢測系統有效
| 申請號: | 200910060553.5 | 申請日: | 2009-01-16 |
| 公開(公告)號: | CN101465769A | 公開(公告)日: | 2009-06-24 |
| 發明(設計)人: | 馮丹;萬亞平;曾令仿;陳儉喜;毛波;吳素貞 | 申請(專利權)人: | 華中科技大學 |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;H04L12/24;H04L29/08 |
| 代理公司: | 華中科技大學專利中心 | 代理人: | 方 放 |
| 地址: | 430074湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 控制器 磁盤陣列 動態 故障 檢測 系統 | ||
技術領域
本發明屬于計算機存儲技術領域,具體涉及一種雙控制器磁盤陣列的動態故障檢測系統。
背景技術
越來越多的證據表明,網絡存儲將成為繼個人計算機和互聯網絡后第三次IT浪潮的引導者。個人計算機引領了第一次IT浪潮,互聯網絡把孤立的主機通過網絡互聯起來引領了第二次IT浪潮。第一次浪潮和第二次浪潮是以數據計算為中心,而網絡存儲將引領以數據存儲為中心的第三次IT浪潮。為了保證存儲系統的高可用性以及應對日漸頻繁出現的故障,對存儲系統的多個節點或者多個磁盤陣列控制器之間進行高效準確的檢測已經成為必然。故障的頻繁發生已經成為困擾科學家、工程技術人員和存儲用戶的主要問題之一,高效的動態故障檢測算法和故障恢復機制是存儲界的研究難點之一。在故障檢測算法方面,針對存儲系統高度動態異構、包丟失率及消息傳輸延遲較大等特點,故障檢測在必須滿足完整性、準確性等基本要求的基礎上,還應該能夠滿足系統的及時性、可擴展性、靈活性等特殊需求,并據此提出了一些故障檢測算法。
故障檢測是使計算機系統發生故障后能及時有效恢復的前提。當前故障檢測的方式分為靜態心跳檢測和動態心跳檢測兩種。一般的靜態心跳故障檢測的設計思想是:給定兩個進程p和q,假定由p監控q,q會按照一個固定的時間間隔周期性的給p發送心跳消息;若在預定的時間段內p沒有收到q的心跳消息,則p認為q故障。一般認為這是一種靜態的心跳機制,它的心跳消息到達時間上限固定,不能滿足網絡存儲系統的動態性需求。見J?H?Abawajy等.Fault?detection?service?architecture?for?gridcomputing?systems[G].In:Proc?of?ICCSA?2004,Lecture?Note?in?ComputerScience?3044.Berlin:Springer,2004.107-115;而動態心跳故障檢測根據最近的n次心跳消息到達的時間估計第n+1次的心跳消息到達時間,并據此判斷故障的發生,一般采取加權平均方法或者線性回歸的方法利用曲線擬和估計第n+1次心跳到達的時間。這些方法需要大量的樣本信息或者樣本需要滿足某種概率分布特征,并不適合于存儲系統的需求。見WChen,S?Toueg,M?K?Aguilera.On?the?quality?of?service?of?failure?detectors[J].IEEE?Trans?on?Computers,2002,51(2):13-32.以及Xuanhua?Shi,HaiJin,Zongfen?Han,et?al.ALTER:Adaptive?failure?detection?services?for?grids[C].In:Proc?of?the?2005?IEEE?Int’l?Conf?on?Services?Computing(SCC’05).Los?Alamitos,CA:IEEE?Computer?Society?Press,2005.355-358。
在現有的對數據存儲的業務需求中,需要一種高效適用的故障檢測系統,以提高存儲系統的可靠性和可用性。
發明內容
本發明提出一種雙控制器磁盤陣列的動態故障檢測系統,解決現有動態心跳故障檢測系統需要大量的樣本信息或者對樣本要求滿足特定概率分布,存儲系統的負載較大,計算過程復雜、不穩定,導致不適合于存儲系統需求的問題。
本發明的雙控制器磁盤陣列的動態故障檢測系統,由并行的主控制器和從控制器構成,主控制器和從控制器分別包括CPU、Cache、IDE硬盤、串控制器、第一千兆網卡和第二千兆網卡,它們通過PCI總線互連,主控制器和從控制器還分別包括光纖通道適配器;主控制器和從控制器之間通過第二千兆網卡進行心跳故障檢測,通過光纖通道適配器進行數據同步;其特征在于:
所述主控制器和從控制器上分別加載心跳模塊、信息監控模塊、故障切換模塊和服務監控模塊;
所述心跳模塊根據本控制器服務監控模塊發送過來的值設置心跳發送周期,然后周期性向對方控制器發送心跳消息,心跳消息包括每個控制器自檢信息和心跳信息;
所述信息監控模塊將對方控制器心跳模塊發送過來的心跳消息到達時間放入時間窗中,達到設定的數量以后,利用無偏灰色預測模型,預測下一次心跳消息到達時間,并結合心跳到達時間修正值設定判斷故障的時限;在判斷故障的時限內沒有收到對方控制器發送過來的心跳消息,則認為對方控制器失效,通知故障切換模塊;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910060553.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:網絡社區信息發送方法、服務器和系統
- 下一篇:刀片服務器二級供電系統





