[發(fā)明專利]一種OSD故障處理方法及裝置有效
| 申請?zhí)枺?/td> | 202011277812.2 | 申請日: | 2020-11-16 |
| 公開(公告)號: | CN112596935B | 公開(公告)日: | 2022-08-30 |
| 發(fā)明(設(shè)計)人: | 閔順新 | 申請(專利權(quán))人: | 新華三大數(shù)據(jù)技術(shù)有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07;H04L43/10 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450000 河南省鄭州市鄭州高*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 osd 故障 處理 方法 裝置 | ||
本申請涉及數(shù)據(jù)存儲技術(shù)領(lǐng)域,特別涉及一種OSD故障處理方法及裝置。該方法包括:在檢測到目標OSD故障時,將所述目標OSD設(shè)置為下線狀態(tài);確定所述目標OSD故障類型,并基于所述目標OSD的故障類型,確定所述目標OSD的目標隔離模式;若所述目標隔離模式為第一隔離模式,則在將所述目標OSD設(shè)置為上線狀態(tài)之前,對所述目標OSD故障進行故障是否解除的檢測,在通過檢測確定故障解除時,將所述目標OSD設(shè)置為上線狀態(tài)。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)存儲技術(shù)領(lǐng)域,特別涉及一種OSD故障處理方法及裝置。
背景技術(shù)
OSD是ceph集群的基本存儲單元,每個OSD皆可提供完整和具有強一致性語義的本地對象存儲服務(wù)。
OSD震蕩是指OSD在故障場景下,狀態(tài)在up與down之間頻繁切換。OSD只有在up狀態(tài)下,才能承擔客戶端下發(fā)的IO。如果OSD狀態(tài)長期在up與down之間反復(fù)切換將會導(dǎo)致PG狀態(tài)不健康,從而導(dǎo)致業(yè)務(wù)歸零。
通過分析大量現(xiàn)網(wǎng)以及實驗室問題,上述故障場景主要包括但不限于以下幾種:軟件斷言、OSD間心跳報down等。其中OSD心跳報down往往是由于網(wǎng)絡(luò)異常導(dǎo)致OSD間心跳不通。由此可見,如何避免ceph集群OSD震蕩是保證用戶業(yè)務(wù)連續(xù)性的關(guān)鍵。
目前,當檢測到OSD故障時,OSD進程將直接退出,即OSD會被設(shè)置為down狀態(tài),后續(xù)會基于預(yù)設(shè)規(guī)則將OSD拉起,即將OSD設(shè)置為up狀態(tài),如果此時故障未解除,就會出現(xiàn)OSD進程頻繁退出和拉起的操作,從而導(dǎo)致OSD震蕩,進而造成用戶業(yè)務(wù)的中斷
發(fā)明內(nèi)容
本申請?zhí)峁┝艘环NOSD故障處理方法及裝置,用以解決現(xiàn)有技術(shù)中存在的OSD震蕩而導(dǎo)致用戶業(yè)務(wù)中斷的問題。
第一方面,本申請?zhí)峁┝艘环NOSD故障處理方法,所述方法包括:
在檢測到目標OSD故障時,將所述目標OSD設(shè)置為下線狀態(tài);
確定所述目標OSD故障類型,并基于所述目標OSD的故障類型,確定所述目標OSD的目標隔離模式;
若所述目標隔離模式為第一隔離模式,則在將所述目標OSD設(shè)置為上線狀態(tài)之前,對所述目標OSD故障進行故障是否解除的檢測,在通過檢測確定故障解除時,將所述目標OSD設(shè)置為上線狀態(tài)。
可選地,所述方法還包括:
若所述目標隔離模式為第二隔離模式,則在所述目標OSD被設(shè)置為下線狀態(tài)后,基于預(yù)設(shè)規(guī)則將所述目標OSD設(shè)置為上線狀態(tài);
統(tǒng)計所述目標OSD在預(yù)設(shè)時長內(nèi)被設(shè)置為下線狀態(tài)的次數(shù),若所述次數(shù)大于等于設(shè)定閾值,則采用第三隔離模式隔離所述目標OSD,其中,在所述第三隔離模式下,所述目標OSD被設(shè)置為下線狀態(tài),且不再基于所述預(yù)設(shè)規(guī)則將所述目標OSD設(shè)置為上線狀態(tài)。
可選地,基于所述目標OSD的故障類型,確定所述目標OSD的目標隔離模式的步驟包括:
若由于檢測到心跳連接斷開而導(dǎo)致所述目標OSD故障,則確定所述目標OSD的目標隔離模式為第一隔離模式;
若由于檢測到軟件斷言而導(dǎo)致所述目標OSD故障,則確定所述目標OSD的目標隔離模式為第二隔離模式。
可選地,對所述目標OSD故障進行故障是否解除的檢測,在通過檢測確定故障解除時,將所述目標OSD設(shè)置為上線狀態(tài)的步驟包括:
指示所述目標OSD基于預(yù)設(shè)頻率向其他OSD發(fā)送若干心跳報文;
若確定所述目標OSD在發(fā)送一個心跳報文后的預(yù)設(shè)時長內(nèi)均接收到該一個心跳報文對應(yīng)的響應(yīng)報文,則確定故障解除;
將所述目標OSD設(shè)置為上線狀態(tài)。
可選地,所述方法還包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華三大數(shù)據(jù)技術(shù)有限公司,未經(jīng)新華三大數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011277812.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 拼接顯示墻OSD顯示方法和系統(tǒng)
- 一種網(wǎng)絡(luò)故障處理方法和裝置
- OSD選取方法、數(shù)據(jù)寫入方法、裝置和存儲系統(tǒng)
- OSD選擇方法、數(shù)據(jù)寫入和讀取方法、監(jiān)控器和服務(wù)器集群
- 主OSD調(diào)整方法及裝置
- 一種OSD更換方法、系統(tǒng)、設(shè)備及計算機可讀存儲介質(zhì)
- 一種OSD角色調(diào)整方法和裝置
- 采用場加倍產(chǎn)生屏幕顯示消息的設(shè)備和方法
- 采用行加倍產(chǎn)生屏幕顯示消息的設(shè)備和方法
- 采用1-位象素產(chǎn)生屏幕顯示消息的設(shè)備和方法





