[發(fā)明專利]分布式存儲(chǔ)集群的故障定位方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請?zhí)枺?/td> | 202110536958.2 | 申請日: | 2021-05-14 |
| 公開(公告)號: | CN115348157B | 公開(公告)日: | 2023-09-05 |
| 發(fā)明(設(shè)計(jì))人: | 戴偉;郭岳;吳天東 | 申請(專利權(quán))人: | 中國移動(dòng)通信集團(tuán)浙江有限公司;中國移動(dòng)通信集團(tuán)有限公司 |
| 主分類號: | H04L41/0677 | 分類號: | H04L41/0677;H04L43/0852;H04L43/16 |
| 代理公司: | 深圳市世紀(jì)恒程知識(shí)產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 劉瑞花 |
| 地址: | 310000 *** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分布式 存儲(chǔ) 集群 故障 定位 方法 裝置 設(shè)備 介質(zhì) | ||
本發(fā)明公開了分布式存儲(chǔ)集群的故障定位方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),所述方法包括:獲取分布式存儲(chǔ)集群的節(jié)點(diǎn)信息和組網(wǎng)信息,并根據(jù)所述節(jié)點(diǎn)信息和組網(wǎng)信息生成網(wǎng)絡(luò)拓?fù)洌徊杉鼍W(wǎng)絡(luò)拓?fù)渲懈鞴?jié)點(diǎn)之間的時(shí)延數(shù)據(jù);根據(jù)所述時(shí)延數(shù)據(jù)確定平均時(shí)延,并將所述平均時(shí)延與時(shí)延閾值進(jìn)行比較;在所述平均時(shí)延超過所述時(shí)延閾值時(shí),進(jìn)行預(yù)警,并獲取預(yù)設(shè)定位策略;根據(jù)所述預(yù)設(shè)定位策略對所述分布式存儲(chǔ)集群中的故障硬件進(jìn)行定位檢測,從而根據(jù)當(dāng)前分布式存儲(chǔ)集群的實(shí)際環(huán)境信息進(jìn)行及時(shí)預(yù)警,并采用預(yù)設(shè)定位策略進(jìn)行定位檢測,相較于現(xiàn)有技術(shù),能根據(jù)實(shí)際網(wǎng)絡(luò)環(huán)境更及時(shí)的進(jìn)行故障定位。
技術(shù)領(lǐng)域
本發(fā)明涉及故障檢測技術(shù)領(lǐng)域,尤其涉及一種分布式存儲(chǔ)集群的故障定位方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
現(xiàn)有技術(shù)中,集群故障發(fā)現(xiàn)與定位的常用方法包括:(1)影響業(yè)務(wù)后人工排查,依靠時(shí)延數(shù)據(jù)和運(yùn)維經(jīng)驗(yàn)大致定位故障節(jié)點(diǎn),再進(jìn)行切換或隔離;(2)利用日志關(guān)鍵字匹配,即通過監(jiān)控主機(jī)或交換機(jī)日志,匹配諸如up以及down等關(guān)鍵字來發(fā)現(xiàn)問題,根據(jù)日志可對有問題的節(jié)點(diǎn)進(jìn)行切換或隔離。上述方法存在的問題包括:排查手段單一低效,故障處理耗時(shí)長;監(jiān)控手段不完善,提前預(yù)警能力不足等。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于提出一種分布式存儲(chǔ)集群的故障定位方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),旨在解決分布式集群中硬件故障定位不及時(shí)的技術(shù)問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供一種分布式存儲(chǔ)集群的故障定位方法,所述分布式存儲(chǔ)集群的故障定位方法包括以下步驟:
獲取分布式存儲(chǔ)集群的節(jié)點(diǎn)信息和組網(wǎng)信息,并根據(jù)所述節(jié)點(diǎn)信息和組網(wǎng)信息確定網(wǎng)絡(luò)拓?fù)洌?/p>
采集所述網(wǎng)絡(luò)拓?fù)渲懈髦鳈C(jī)節(jié)點(diǎn)之間的時(shí)延數(shù)據(jù);
根據(jù)所述時(shí)延數(shù)據(jù)確定平均時(shí)延,并將所述平均時(shí)延與時(shí)延閾值進(jìn)行比較;
在所述平均時(shí)延超過所述時(shí)延閾值時(shí),進(jìn)行預(yù)警,并獲取預(yù)設(shè)定位策略;
根據(jù)所述預(yù)設(shè)定位策略對所述分布式存儲(chǔ)集群中的故障硬件進(jìn)行定位檢測。
可選地,所述預(yù)設(shè)定位策略包括多輪循環(huán)定位策略;
所述根據(jù)所述預(yù)設(shè)定位策略對所述分布式存儲(chǔ)集群中的故障硬件進(jìn)行定位檢測,包括:
根據(jù)所述多輪循環(huán)定位策略對所述分布式存儲(chǔ)集群中的主機(jī)節(jié)點(diǎn)進(jìn)行遍歷,將遍歷到的節(jié)點(diǎn)作為服務(wù)器端節(jié)點(diǎn),將所述網(wǎng)絡(luò)拓?fù)渲惺S嗟钠渌鳈C(jī)節(jié)點(diǎn)作為客戶端節(jié)點(diǎn);
獲取各客戶端節(jié)點(diǎn)與所述服務(wù)器端節(jié)點(diǎn)之間的平均時(shí)延;
在遍歷結(jié)束時(shí),根據(jù)所述各客戶端節(jié)點(diǎn)與所述服務(wù)器端節(jié)點(diǎn)之間的平均時(shí)延構(gòu)建平均時(shí)延集合;
確定所述平均時(shí)延集合中平均時(shí)延差異最大的目標(biāo)平均時(shí)延;
將所述目標(biāo)平均時(shí)延對應(yīng)的分布式集群中的主機(jī)節(jié)點(diǎn)定位為故障硬件。
可選地,所述在遍歷結(jié)束時(shí),根據(jù)獲取的平均時(shí)延構(gòu)建平均時(shí)延集合之后,還包括:
在所述平均時(shí)延集合中未存在平均時(shí)延差異大的平均時(shí)延時(shí),將所述分布式存儲(chǔ)集群中的主機(jī)節(jié)點(diǎn)進(jìn)行分組,得到若干組分布式集群,其中,若干組分布式集群中包括跨交換機(jī)的分布式集群;
根據(jù)所述多輪循環(huán)定位策略獲取各組分布式集群的平均時(shí)延;
將所述各組分布式集群的平均時(shí)延與平均時(shí)延閾值進(jìn)行比較;
將大于平均時(shí)延閾值的各組分布式集群對應(yīng)的交換機(jī)級聯(lián)口定位為故障硬件。
可選地,所述將所述各組分布式集群的平均時(shí)延與平均時(shí)延閾值進(jìn)行比較之后,還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國移動(dòng)通信集團(tuán)浙江有限公司;中國移動(dòng)通信集團(tuán)有限公司,未經(jīng)中國移動(dòng)通信集團(tuán)浙江有限公司;中國移動(dòng)通信集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110536958.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 動(dòng)態(tài)存儲(chǔ)管理裝置及方法
- 一種存儲(chǔ)方法、服務(wù)器及存儲(chǔ)控制器
- 一種基于存儲(chǔ)系統(tǒng)的控制方法及裝置
- 一種信息的存儲(chǔ)控制方法
- 一種數(shù)據(jù)存儲(chǔ)方法及裝置
- 數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)存儲(chǔ)控制方法及裝置
- 存儲(chǔ)設(shè)備、存儲(chǔ)系統(tǒng)及存儲(chǔ)方法
- 物料存儲(chǔ)方法及系統(tǒng)
- 基于雙芯智能電表的數(shù)據(jù)分類存儲(chǔ)方法和裝置
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時(shí)維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺(tái)多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點(diǎn)和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)介質(zhì)
- 混合云場景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 故障檢測裝置、故障檢測方法以及故障檢測程序
- 故障預(yù)測裝置、故障預(yù)測方法及故障預(yù)測程序
- 故障分析裝置、故障分析系統(tǒng)及故障分析方法
- 故障檢測方法、故障檢測裝置和故障檢測系統(tǒng)
- 故障檢測裝置、故障檢測方法及計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)
- 故障檢測裝置、故障檢測方法和計(jì)算機(jī)能讀取的存儲(chǔ)介質(zhì)
- 故障檢測裝置、故障檢測系統(tǒng)、故障檢測方法
- 故障處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 故障排除方法、故障排除裝置及故障排除系統(tǒng)
- 故障檢測電路、故障檢測系統(tǒng)及故障檢測方法





