[發明專利]分布式存儲系統故障檢測的一種自適應算法在審

申請號：	201910737549.1	申請日：	2019-08-09
公開（公告）號：	CN112346942A	公開（公告）日：	2021-02-09
發明（設計）人：	馬瑋駿	申請（專利權）人：	南京澤暢航空科技有限公司
主分類號：	G06F11/34	分類號：	G06F11/34
代理公司：	暫無信息	代理人：	暫無信息
地址：	211106 江蘇省南***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	分布式存儲系統故障檢測一種自適應算法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

分布式存儲系統故障檢測的一種自適應算法。針對分布式存儲系統的特點，公開了一種基于混合狀態的捎帶故障檢測自適應算法。包括：根據被測節點計算時間的歷史數據，預估被測節點的下一次計算時間；根據檢測消息往返時延以及被檢測節點負載狀態的歷史數據，預估下一次的檢測消息往返時延；根據實測的時延結果對超時余量進行實時調整；計算下一次的超時時限設置；假如在實際檢測中，用時超出超時時限仍未收到被檢測節點的應答消息，則認為被檢測節點出現故障。本發明采用自檢測結合捎帶模式，合并故障檢測與狀態檢測消息，增強故障檢測功能的同時減少了檢測負載。因而本發明所述的檢測方法高效可靠，易于實施。

技術領域

本發明屬于計算機網絡故障檢測領域；具體來說，涉及分布式存儲系統故障檢測的一種自適應算法。

背景技術

故障檢測一直是分布式系統維護領域的熱點和難點。隨著分布式系統的規模和復雜性的不斷增加，其故障檢測算法逐步向自適應、低延遲、低代價等方面發展?，F有的手段(比如NFD-E算法)包括：根據網絡狀態的變化來預測心跳消息的到達時間，使用故障檢測的QoS(Quality of Service)作為參考指標，等等。

目前，分布式系統的故障檢測，主要側重于傳感器網絡、網格、軟件系統等方面，因而大多以心跳消息的時延為基礎進行計算，主要面向網絡時延進行預測及分析。然而，針對分布式存儲系統而言，諸如心跳消息本身的內容、節點負載對檢測時延的影響等信息，尚未得以充分利用。

發明內容

本發明的目的在于，針對分布式存儲系統的特點，提出了基于混合狀態的捎帶故障檢測自適應算法MSP-AFD(Mixed Status Piggyback Adaptive Fault Detectionalgorithm)。該算法采用自檢測結合捎帶模式，合并故障檢測與狀態檢測消息，增強故障檢測功能的同時減少了檢測負載。該算法包括以下步驟。

(步驟1)根據最近n次的檢測消息往返時延以及被檢測節點負載狀態預測第n+1次的檢測消息往返時延PR_n+1：

其中，R_n是第n次的檢測消息往返時延，Δt_i(i＝1，...，n)是被檢測節點最近n次的計算處理時延，θ_n+1表示對被檢測節點第n+1次計算時間的預測。

(步驟2)對于(式1)右端的θ_n+1，計算如下：

其中，表示被檢測節點最近n次計算時間的平均值，ε_n＝Δt_n-Δt_n-1表示被檢測節點最近一次的計算時間變化量，Δt_max表示被檢測節點計算時間突變的閾值，Δl_n為被檢測節點第n次任務處理的負載持續時間，T為檢測周期。

(步驟3)利用(式1)的結果，計算第n+1次的超時時限設置TO_n+1：

TO_n+1＝PR_n+1+ρ_n+1 (式3)

其中，ρ_n+1表示針對網絡狀態和故障檢測QoS需求而設置的第n+1次超時余量，后文將會給出ρ_n+1的計算公式。

(步驟4)判斷某個被檢測節點是否崩潰時，檢測端采用以下策略：

第n+1次檢測中如果發現在發出檢測消息之后經過超時時限TO_n+1還未收到被檢測端的應答消息，則認為被檢測節點出現故障。

在步驟3中，超時余量ρ是根據實測的時延結果進行實時調整的，從而保證了算法的高效率。ρ的計算方法如下：

令

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。