[發(fā)明專(zhuān)利]一種分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)方法、裝置、設(shè)備及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201911207102.X | 申請(qǐng)日: | 2019-11-29 |
| 公開(kāi)(公告)號(hào): | CN111104283B | 公開(kāi)(公告)日: | 2022-04-22 |
| 發(fā)明(設(shè)計(jì))人: | 甄天橋;孟祥瑞 | 申請(qǐng)(專(zhuān)利權(quán))人: | 浪潮電子信息產(chǎn)業(yè)股份有限公司 |
| 主分類(lèi)號(hào): | G06F11/30 | 分類(lèi)號(hào): | G06F11/30 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 郄晨芳 |
| 地址: | 250101 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分布式 存儲(chǔ)系統(tǒng) 故障 檢測(cè) 方法 裝置 設(shè)備 介質(zhì) | ||
本申請(qǐng)公開(kāi)了一種分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),方法包括:根據(jù)分布式存儲(chǔ)系統(tǒng)的存儲(chǔ)池類(lèi)型,利用對(duì)應(yīng)的計(jì)算規(guī)則確定出故障門(mén)限值;獲取分布式存儲(chǔ)系統(tǒng)中各節(jié)點(diǎn)分別被上報(bào)為異常狀態(tài)的上報(bào)次數(shù);根據(jù)各上報(bào)次數(shù)和故障門(mén)限值,確定出分布式存儲(chǔ)系統(tǒng)的故障情況。可見(jiàn),本方法中的故障門(mén)限值是根據(jù)存儲(chǔ)系統(tǒng)的存儲(chǔ)池類(lèi)型,利用對(duì)應(yīng)的計(jì)算規(guī)則確定出來(lái)的,因此,根據(jù)各上報(bào)次數(shù)和故障門(mén)限值,確定出分布式存儲(chǔ)系統(tǒng)的故障情況,能夠避免后端網(wǎng)絡(luò)出現(xiàn)故障的節(jié)點(diǎn)誤報(bào)其他節(jié)點(diǎn)異常導(dǎo)致的故障誤判,提高對(duì)分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)的準(zhǔn)確度,相對(duì)保障整個(gè)分布式存儲(chǔ)系統(tǒng)的正常使用。
技術(shù)領(lǐng)域
本發(fā)明涉及分布式存儲(chǔ)系統(tǒng)領(lǐng)域,特別涉及一種分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
在分布式存儲(chǔ)系統(tǒng)中,通過(guò)在每個(gè)節(jié)點(diǎn)上設(shè)置守護(hù)進(jìn)程(或服務(wù)),用以提供對(duì)存儲(chǔ)池中的硬盤(pán)的訪問(wèn)和監(jiān)控等;并且通過(guò)不同節(jié)點(diǎn)間的守護(hù)進(jìn)程(或服務(wù))間的心跳消息,來(lái)檢測(cè)對(duì)端的守護(hù)進(jìn)程(或服務(wù))是否正常。
對(duì)每個(gè)節(jié)點(diǎn)而言,包括前端網(wǎng)絡(luò)和后端網(wǎng)絡(luò),前端網(wǎng)絡(luò)供客戶(hù)業(yè)務(wù)使用,后端網(wǎng)絡(luò)供集群內(nèi)消息通信和數(shù)據(jù)交互;為了探測(cè)網(wǎng)絡(luò)的連通性,節(jié)點(diǎn)間的守護(hù)進(jìn)程會(huì)同時(shí)在前端網(wǎng)絡(luò)和后端網(wǎng)絡(luò)進(jìn)行心跳檢測(cè);各節(jié)點(diǎn)通過(guò)前端網(wǎng)絡(luò)與集群管理進(jìn)程進(jìn)行消息交互。在這種情況下,如果個(gè)別節(jié)點(diǎn)的后端網(wǎng)絡(luò)出現(xiàn)故障(實(shí)際故障節(jié)點(diǎn)),導(dǎo)致其后端網(wǎng)絡(luò)無(wú)法和其它節(jié)點(diǎn)通信,則其它節(jié)點(diǎn)會(huì)向集群管理進(jìn)程上報(bào)這些實(shí)際故障節(jié)點(diǎn)為異常狀態(tài);這些實(shí)際故障節(jié)點(diǎn)也會(huì)由于無(wú)法與其他節(jié)點(diǎn)通信,而通過(guò)自身的前端網(wǎng)絡(luò)上報(bào)其它節(jié)點(diǎn)為異常狀態(tài)。
現(xiàn)有技術(shù)中,通過(guò)預(yù)先設(shè)置一個(gè)固定的故障門(mén)限值,然后在判斷出某個(gè)節(jié)點(diǎn)被上報(bào)為異常狀態(tài)的上報(bào)次數(shù)超過(guò)該故障門(mén)限值時(shí),則判定該節(jié)點(diǎn)為故障節(jié)點(diǎn)。但是,這樣的方法將存在一個(gè)問(wèn)題:比如,假設(shè)當(dāng)前的分布式存儲(chǔ)系統(tǒng)中有兩個(gè)實(shí)際故障節(jié)點(diǎn),其它節(jié)點(diǎn)會(huì)上報(bào)這兩個(gè)實(shí)際故障節(jié)點(diǎn)異常,這兩個(gè)實(shí)際故障節(jié)點(diǎn)也會(huì)上報(bào)其它所有節(jié)點(diǎn)異常;這樣一來(lái),其他每個(gè)節(jié)點(diǎn)都至少被這兩個(gè)實(shí)際故障節(jié)點(diǎn)上報(bào)異常,而由于其他每個(gè)節(jié)點(diǎn)被上報(bào)異常的次數(shù)均超過(guò)預(yù)設(shè)門(mén)限值,因此集群管理進(jìn)程就會(huì)把所有節(jié)點(diǎn)置為故障節(jié)點(diǎn),從而導(dǎo)致整個(gè)集群不可用。而實(shí)際上,只有兩個(gè)實(shí)際故障節(jié)點(diǎn),集群可能還是可用的。可見(jiàn),現(xiàn)有技術(shù)中的對(duì)分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)方法,在節(jié)點(diǎn)的后端網(wǎng)絡(luò)發(fā)生故障時(shí),將存在誤報(bào)異常的情況,從而影響整個(gè)分布式存儲(chǔ)系統(tǒng)的正常使用。
因此,如何提高對(duì)分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)的準(zhǔn)確度,相對(duì)保障分布式存儲(chǔ)系統(tǒng)的正常使用,是本領(lǐng)域技術(shù)人員目前需要解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)方法,能夠提高對(duì)分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)的準(zhǔn)確度,相對(duì)保障分布式存儲(chǔ)系統(tǒng)的正常使用;本發(fā)明的另一目的是提供一種分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),均具有上述有益效果。
為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種分布式存儲(chǔ)系統(tǒng)的故障檢測(cè)方法,包括:
根據(jù)分布式存儲(chǔ)系統(tǒng)的存儲(chǔ)池類(lèi)型,利用對(duì)應(yīng)的計(jì)算規(guī)則確定出故障門(mén)限值;
獲取所述分布式存儲(chǔ)系統(tǒng)中各節(jié)點(diǎn)分別被上報(bào)為異常狀態(tài)的上報(bào)次數(shù);
根據(jù)各所述上報(bào)次數(shù)和所述故障門(mén)限值,確定出所述分布式存儲(chǔ)系統(tǒng)的故障情況。
優(yōu)選地,所述根據(jù)分布式存儲(chǔ)系統(tǒng)的存儲(chǔ)池類(lèi)型,利用對(duì)應(yīng)的計(jì)算規(guī)則確定出故障門(mén)限值的過(guò)程,具體包括:
若所述分布式存儲(chǔ)系統(tǒng)的存儲(chǔ)池為副本類(lèi)型,則獲取所述存儲(chǔ)池中屬于同一歸置組的硬盤(pán)的第一數(shù)量;
將大于所述第一數(shù)量一半的值設(shè)置為所述故障門(mén)限值。
優(yōu)選地,所述根據(jù)分布式存儲(chǔ)系統(tǒng)的存儲(chǔ)池類(lèi)型,利用對(duì)應(yīng)的計(jì)算規(guī)則確定出故障門(mén)限值的過(guò)程,具體包括:
若所述分布式存儲(chǔ)系統(tǒng)的存儲(chǔ)池為糾刪類(lèi)型,則獲取所述存儲(chǔ)池中根據(jù)數(shù)據(jù)分塊計(jì)算出的冗余數(shù)據(jù)的第二數(shù)量;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于浪潮電子信息產(chǎn)業(yè)股份有限公司,未經(jīng)浪潮電子信息產(chǎn)業(yè)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911207102.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:基于雙通道聯(lián)合處理的合成孔徑寬帶信號(hào)源偵察成像方法
- 下一篇:存儲(chǔ)系統(tǒng)數(shù)據(jù)刷寫(xiě)方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè);錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過(guò)測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過(guò)處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過(guò)軟件的測(cè)試或調(diào)試防止錯(cuò)誤
- 用于處理到遠(yuǎn)程存儲(chǔ)位置的故障恢復(fù)的方法、系統(tǒng)以及程序
- 包括向外擴(kuò)展型存儲(chǔ)系統(tǒng)的存儲(chǔ)系統(tǒng)群及其管理方法
- 一種移動(dòng)存儲(chǔ)系統(tǒng)及其存儲(chǔ)方法
- 存儲(chǔ)系統(tǒng)的數(shù)據(jù)備份與恢復(fù)系統(tǒng)、方法、設(shè)備及存儲(chǔ)介質(zhì)
- 在線遷移異構(gòu)系統(tǒng)數(shù)據(jù)的方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 建立存儲(chǔ)系統(tǒng)伙伴關(guān)系的方法及裝置
- 數(shù)據(jù)處理系統(tǒng)及其操作方法
- 一種容災(zāi)平臺(tái)及一種容災(zāi)方法
- 在基于云的存儲(chǔ)系統(tǒng)中服務(wù)I/O操作
- 一種數(shù)據(jù)修復(fù)方法及裝置
- 故障檢測(cè)裝置、故障檢測(cè)方法以及故障檢測(cè)程序
- 故障預(yù)測(cè)裝置、故障預(yù)測(cè)方法及故障預(yù)測(cè)程序
- 故障分析裝置、故障分析系統(tǒng)及故障分析方法
- 故障檢測(cè)方法、故障檢測(cè)裝置和故障檢測(cè)系統(tǒng)
- 故障檢測(cè)裝置、故障檢測(cè)方法及計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)
- 故障檢測(cè)裝置、故障檢測(cè)方法和計(jì)算機(jī)能讀取的存儲(chǔ)介質(zhì)
- 故障檢測(cè)裝置、故障檢測(cè)系統(tǒng)、故障檢測(cè)方法
- 故障處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 故障排除方法、故障排除裝置及故障排除系統(tǒng)
- 故障檢測(cè)電路、故障檢測(cè)系統(tǒng)及故障檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)方法和檢測(cè)組件
- 檢測(cè)方法、檢測(cè)裝置和檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法以及記錄介質(zhì)
- 檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)和檢測(cè)方法
- 檢測(cè)裝置、檢測(cè)設(shè)備及檢測(cè)方法
- 檢測(cè)芯片、檢測(cè)設(shè)備、檢測(cè)系統(tǒng)
- 檢測(cè)組件、檢測(cè)裝置以及檢測(cè)系統(tǒng)
- 檢測(cè)裝置、檢測(cè)方法及檢測(cè)程序
- 檢測(cè)電路、檢測(cè)裝置及檢測(cè)系統(tǒng)





