[發明專利]分布式存儲系統故障檢測的一種自適應算法在審
| 申請號: | 201910737549.1 | 申請日: | 2019-08-09 |
| 公開(公告)號: | CN112346942A | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 馬瑋駿 | 申請(專利權)人: | 南京澤暢航空科技有限公司 |
| 主分類號: | G06F11/34 | 分類號: | G06F11/34 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 211106 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 存儲系統 故障 檢測 一種 自適應 算法 | ||
分布式存儲系統故障檢測的一種自適應算法。針對分布式存儲系統的特點,公開了一種基于混合狀態的捎帶故障檢測自適應算法。包括:根據被測節點計算時間的歷史數據,預估被測節點的下一次計算時間;根據檢測消息往返時延以及被檢測節點負載狀態的歷史數據,預估下一次的檢測消息往返時延;根據實測的時延結果對超時余量進行實時調整;計算下一次的超時時限設置;假如在實際檢測中,用時超出超時時限仍未收到被檢測節點的應答消息,則認為被檢測節點出現故障。本發明采用自檢測結合捎帶模式,合并故障檢測與狀態檢測消息,增強故障檢測功能的同時減少了檢測負載。因而本發明所述的檢測方法高效可靠,易于實施。
技術領域
本發明屬于計算機網絡故障檢測領域;具體來說,涉及分布式存儲系統故障檢測的一種自適應算法。
背景技術
故障檢測一直是分布式系統維護領域的熱點和難點。隨著分布式系統的規模和復雜性的不斷增加,其故障檢測算法逐步向自適應、低延遲、低代價等方面發展?,F有的手段(比如NFD-E算法)包括:根據網絡狀態的變化來預測心跳消息的到達時間,使用故障檢測的QoS(Quality of Service)作為參考指標,等等。
目前,分布式系統的故障檢測,主要側重于傳感器網絡、網格、軟件系統等方面,因而大多以心跳消息的時延為基礎進行計算,主要面向網絡時延進行預測及分析。然而,針對分布式存儲系統而言,諸如心跳消息本身的內容、節點負載對檢測時延的影響等信息,尚未得以充分利用。
發明內容
本發明的目的在于,針對分布式存儲系統的特點,提出了基于混合狀態的捎帶故障檢測自適應算法MSP-AFD(Mixed Status Piggyback Adaptive Fault Detectionalgorithm)。該算法采用自檢測結合捎帶模式,合并故障檢測與狀態檢測消息,增強故障檢測功能的同時減少了檢測負載。該算法包括以下步驟。
(步驟1)根據最近n次的檢測消息往返時延以及被檢測節點負載狀態預測第n+1次的檢測消息往返時延PRn+1:
其中,Rn是第n次的檢測消息往返時延,Δti(i=1,...,n)是被檢測節點最近n次的計算處理時延,θn+1表示對被檢測節點第n+1次計算時間的預測。
(步驟2)對于(式1)右端的θn+1,計算如下:
其中,表示被檢測節點最近n次計算時間的平均值,εn=Δtn-Δtn-1表示被檢測節點最近一次的計算時間變化量,Δtmax表示被檢測節點計算時間突變的閾值,Δln為被檢測節點第n次任務處理的負載持續時間,T為檢測周期。
(步驟3)利用(式1)的結果,計算第n+1次的超時時限設置TOn+1:
TOn+1=PRn+1+ρn+1 (式3)
其中,ρn+1表示針對網絡狀態和故障檢測QoS需求而設置的第n+1次超時余量,后文將會給出ρn+1的計算公式。
(步驟4)判斷某個被檢測節點是否崩潰時,檢測端采用以下策略:
第n+1次檢測中如果發現在發出檢測消息之后經過超時時限TOn+1還未收到被檢測端的應答消息,則認為被檢測節點出現故障。
在步驟3中,超時余量ρ是根據實測的時延結果進行實時調整的,從而保證了算法的高效率。ρ的計算方法如下:
令
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京澤暢航空科技有限公司,未經南京澤暢航空科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910737549.1/2.html,轉載請聲明來源鉆瓜專利網。





