[發明專利]一種用于分布式系統的故障預警方法有效
| 申請號: | 202010053604.8 | 申請日: | 2020-01-17 |
| 公開(公告)號: | CN111314110B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 劉帆;王雪;王元蘭;付煜;潘碗碗;陳大立;惲東杰;江柳慧 | 申請(專利權)人: | 南京大學 |
| 主分類號: | H04L41/0631 | 分類號: | H04L41/0631;H04L67/10 |
| 代理公司: | 上海天翔知識產權代理有限公司 31224 | 代理人: | 陳駿鍵 |
| 地址: | 210046 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 分布式 系統 故障 預警 方法 | ||
本發明公開的一種用于分布式系統的故障預警方法,包括以下步驟:從分布式系統的時序數據庫中獲取不同節點的時間序列數據;構建多維時間序列,并對多維時間序列中的歷史故障點及其前N段時間內的點進行故障標注;利用多種異常檢測器分別對標注好的多維時間序列進行異常檢測處理;構建每個時間點的多維異常分數;采用有監督學習方法進行模型訓練,構建單節點故障預測模型;在單節點故障預測模型的基礎上構建分布式系統的故障預警模型;采用故障預測模型對獲取到的實時數據進行故障預測,輸出故障預警結果。本發明提高了預測準確率,保證一定召回率的同時,降低誤報率,達到較好的檢測效果,從而預判故障并進行告警,提高運維管理效率。
技術領域
本發明涉及故障預警方法技術領域,尤其涉及一種用于分布式系統的故障預警方法。
背景技術
分布式系統的預警重點在于及時準確地預測故障的發生,并定位故障所在節點,快速進行問題排查,減少損失。參見圖1,圖中給出的是傳統的分布式系統的故障預警方法,包括以下步驟:1.調用接口收集檢測數據;2.采用單一的異常檢測方法或者單一的集成學習方法對收集到的檢測數據進行處理;3.利用任意一條時間序列預測出異常,即為分布式系統所產生的異常;4.根據預測出的異常直接預測為系統故障。現有的分布系統的故障預警方法實際上是基于度量分析的機器學習異常檢測方法,不需要了解系統內部結構,通過調用操作系統提供的接口搜集監測數據,適用范圍非常廣泛,其優勢在于:無需事先知道故障類型并描述其特征。
然而,由于網絡環境的動態性與復雜性,現有的基于度量分析的機器學習異常檢測方法具有以下缺陷:1.此種直接基于度量分析的異常檢測方法通常具有較高的誤報率,預測的召回率高,但精確率卻很低,導致在應用過程中人工檢查精力被分散,成本大幅度上升;2.單一的異常檢查方法不一定準確,用不同的異常檢測器從不同角度來判斷時序異常更有效。
為此,本申請人經過有益的探索和研究,找到了解決上述問題的方法,下面將要介紹的技術方案便是在這種背景下產生的。
發明內容
本發明所要解決的技術問題在于:針對現有技術的不足而提供一種精確度高、減少誤報和漏報的用于分布式系統的故障預警方法。
本發明所要解決的技術問題可以采用如下技術方案來實現:
一種用于分布式系統的故障預警方法,包括以下步驟:
從分布式系統的時序數據庫中獲取不同節點的時間序列數據;
根據獲取到的時間序列數據構建多維時間序列,并對多維時間序列中的歷史故障點及其前N段時間內的點進行故障標注;
利用多種異常檢測器分別對標注好的多維時間序列進行異常檢測處理,并分別輸出所述多維時間序列中每個時間點的異常特征;
根據輸出的多個異常特征構建每個時間點的多維異常分數;
根據上述每個時間點的多維異常分數,結合每個時間點的故障情況,采用有監督學習方法進行模型訓練,從而構建單節點故障預測模型;
在所述單節點故障預測模型的基礎上構建分布式系統的故障預警模型;
獲取分布式系統所產生的實時數據,并采用所述故障預警模型對獲取到的實時數據進行故障預測,輸出故障預警結果。
在本發明的一個優選實施例中,通過調用接口的方式從所述分布式系統的時序數據庫中獲取不同節點的時間序列數據。
在本發明的一個優選實施例中,所述時間序列數據包括CPU的負載信息、內存使用率信息以及存儲空間信息。
在本發明的一個優選實施例中,在所述從分布式系統的時序數據庫中獲取不同節點的時間序列數據之后,還包括以下步驟:
對獲取到的不同節點的時間序列數據的有效性進行檢驗;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010053604.8/2.html,轉載請聲明來源鉆瓜專利網。





