[發(fā)明專利]一種分布式存儲系統(tǒng)的監(jiān)控方法、系統(tǒng)、設(shè)備以及介質(zhì)有效
| 申請?zhí)枺?/td> | 202010631321.7 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111858240B | 公開(公告)日: | 2023-01-06 |
| 發(fā)明(設(shè)計(jì))人: | 李娟;郭坤;張海軍 | 申請(專利權(quán))人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30 |
| 代理公司: | 北京連和連知識產(chǎn)權(quán)代理有限公司 11278 | 代理人: | 楊帆 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分布式 存儲系統(tǒng) 監(jiān)控 方法 系統(tǒng) 設(shè)備 以及 介質(zhì) | ||
本發(fā)明公開了一種分布式存儲系統(tǒng)的監(jiān)控方法,包括:分別對每一個(gè)節(jié)點(diǎn)的IO處理流和硬件的狀態(tài)進(jìn)行監(jiān)控;響應(yīng)于監(jiān)控到IO處理流的狀態(tài)異常并且硬件的狀態(tài)異常,獲取系統(tǒng)的存儲特性指標(biāo)的異常狀態(tài);判斷硬件的異常狀態(tài)以及獲取到的存儲特性指標(biāo)的異常狀態(tài)是否符合容錯(cuò)機(jī)制;響應(yīng)于硬件的異常狀態(tài)以及存儲特性指標(biāo)的異常狀態(tài)不符合容錯(cuò)機(jī)制,判斷硬件的異常狀態(tài)與存儲特性指標(biāo)的異常狀態(tài)之間是否存在關(guān)聯(lián);響應(yīng)于硬件的異常狀態(tài)與存儲特征指標(biāo)的異常狀態(tài)之間不存在關(guān)聯(lián),根據(jù)硬件的異常狀態(tài)以及存儲特性指標(biāo)的異常狀態(tài)分別確定相應(yīng)級別的影響因子;根據(jù)影響因子的級別進(jìn)行評分并將評分返回用戶。本發(fā)明還公開了一種系統(tǒng)、計(jì)算機(jī)設(shè)備以及可讀存儲介質(zhì)。
技術(shù)領(lǐng)域
本發(fā)明涉及分布式存儲系統(tǒng)領(lǐng)域,具體涉及一種分布式存儲系統(tǒng)的監(jiān)控方法、系統(tǒng)、設(shè)備以及存儲介質(zhì)。
背景技術(shù)
分布式存儲系統(tǒng)中,存儲系統(tǒng)通常包含上百個(gè)節(jié)點(diǎn),對于每個(gè)節(jié)點(diǎn)存儲集群運(yùn)行狀態(tài),健康狀態(tài)的監(jiān)控和預(yù)警非常重要。但是現(xiàn)有的集群管理系統(tǒng)監(jiān)控大都是從對象的性能或者容量進(jìn)行監(jiān)控,這種方法基于性能容量的監(jiān)控模式,通常是在存儲發(fā)生故障,業(yè)務(wù)嚴(yán)重受影響異常之后才能被識別出來,實(shí)時(shí)性很低,并且并不是所有的異常都一定會在性能中變現(xiàn)出來,因此基于其準(zhǔn)確性很低,給用戶帶來困擾。
發(fā)明內(nèi)容
有鑒于此,為了克服上述問題的至少一個(gè)方面,本發(fā)明實(shí)施例提出一種分布式存儲系統(tǒng)的監(jiān)控方法,包括以下步驟:
分別對每一個(gè)節(jié)點(diǎn)的IO處理流和硬件的狀態(tài)進(jìn)行監(jiān)控;
響應(yīng)于監(jiān)控到所述IO處理流的狀態(tài)異常并且所述硬件的狀態(tài)異常,獲取系統(tǒng)的存儲特性指標(biāo)的異常狀態(tài);
判斷所述硬件的異常狀態(tài)以及獲取到的所述存儲特性指標(biāo)的異常狀態(tài)是否符合容錯(cuò)機(jī)制;
響應(yīng)于所述硬件的異常狀態(tài)以及所述存儲特性指標(biāo)的異常狀態(tài)不符合容錯(cuò)機(jī)制,判斷所述硬件的異常狀態(tài)與所述存儲特性指標(biāo)的異常狀態(tài)之間是否存在關(guān)聯(lián);
響應(yīng)于所述硬件的異常狀態(tài)與所述存儲特征指標(biāo)的異常狀態(tài)之間不存在關(guān)聯(lián),根據(jù)所述硬件的異常狀態(tài)以及所述存儲特性指標(biāo)的異常狀態(tài)分別確定相應(yīng)級別的影響因子;
根據(jù)所述影響因子的級別進(jìn)行評分并將所述評分返回用戶。
在一些實(shí)施例中,對每一個(gè)節(jié)點(diǎn)的IO處理流進(jìn)行監(jiān)控,進(jìn)一步包括:
利用預(yù)設(shè)在主機(jī)接口層、IO管理層、緩存層、存儲池層設(shè)置的故障嗅探器進(jìn)行業(yè)務(wù)監(jiān)控;
其中,所述業(yè)務(wù)監(jiān)控包括:對所述主機(jī)接口層進(jìn)行捕獲路徑調(diào)度結(jié)果的監(jiān)控,對所述IO管理層進(jìn)行捕獲數(shù)據(jù)轉(zhuǎn)發(fā)和數(shù)據(jù)保護(hù)類的監(jiān)控,對所述緩存層進(jìn)行緩存分區(qū)和緩存鏡像的監(jiān)控,對所述存儲池層進(jìn)行不同卷的虛擬化處理狀態(tài)的監(jiān)控。
在一些實(shí)施例中,對每一個(gè)節(jié)點(diǎn)的硬件的狀態(tài)進(jìn)行監(jiān)控,進(jìn)一步包括:
利用預(yù)設(shè)在硬盤、CPU、主板、風(fēng)扇、電源、端口和控制器上設(shè)置的故障嗅探器進(jìn)行監(jiān)控;
其中,所述監(jiān)控包括:對機(jī)械硬盤進(jìn)行運(yùn)行狀態(tài)和健康狀態(tài)的監(jiān)控;對固態(tài)磁盤進(jìn)行磨損度的監(jiān)控;對所述CPU進(jìn)行溫度、故障比例以及運(yùn)行狀態(tài)的監(jiān)控;對所述主板進(jìn)行溫度的監(jiān)控;對所述風(fēng)扇進(jìn)行轉(zhuǎn)速、故障比例以及運(yùn)行狀態(tài)的監(jiān)控;對所述電源進(jìn)行故障比例以及運(yùn)行狀態(tài)的監(jiān)控;對所述端口進(jìn)行故障比例、速率和狀態(tài)的監(jiān)控;對所述控制器進(jìn)行運(yùn)行狀態(tài)的監(jiān)控。
在一些實(shí)施例中,獲取系統(tǒng)的存儲特性指標(biāo)的狀態(tài),進(jìn)一步包括:
獲取所述系統(tǒng)的MON狀態(tài)、OSD狀態(tài)、BOND狀態(tài)、配額、SMB狀態(tài)、MDS故障個(gè)數(shù)以及三方服務(wù)器的狀態(tài)。
在一些實(shí)施例中,判斷所述硬件的異常狀態(tài)以及所述存儲特性指標(biāo)的異常狀態(tài)是否符合容錯(cuò)機(jī)制,進(jìn)一步包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州浪潮智能科技有限公司,未經(jīng)蘇州浪潮智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010631321.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測;錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過測試作故障硬件的檢測或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯(cuò)誤檢測、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測試或調(diào)試防止錯(cuò)誤
- 用于處理到遠(yuǎn)程存儲位置的故障恢復(fù)的方法、系統(tǒng)以及程序
- 包括向外擴(kuò)展型存儲系統(tǒng)的存儲系統(tǒng)群及其管理方法
- 一種移動存儲系統(tǒng)及其存儲方法
- 存儲系統(tǒng)的數(shù)據(jù)備份與恢復(fù)系統(tǒng)、方法、設(shè)備及存儲介質(zhì)
- 在線遷移異構(gòu)系統(tǒng)數(shù)據(jù)的方法、裝置、設(shè)備和存儲介質(zhì)
- 建立存儲系統(tǒng)伙伴關(guān)系的方法及裝置
- 數(shù)據(jù)處理系統(tǒng)及其操作方法
- 一種容災(zāi)平臺及一種容災(zāi)方法
- 在基于云的存儲系統(tǒng)中服務(wù)I/O操作
- 一種數(shù)據(jù)修復(fù)方法及裝置
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 一種范圍廣、力度大的校內(nèi)監(jiān)控系統(tǒng)
- 一種監(jiān)控的方法及系統(tǒng)
- 設(shè)備的監(jiān)控方法、裝置、系統(tǒng)和空調(diào)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 設(shè)備監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 風(fēng)險(xiǎn)雷達(dá)預(yù)警的監(jiān)控方法及系統(tǒng)
- 區(qū)塊鏈網(wǎng)絡(luò)監(jiān)控系統(tǒng)、裝置及方法
- 基于機(jī)器視覺的車站客流安全智能監(jiān)控系統(tǒng)





