[發明專利]一種OSD故障的檢測方法及裝置在審
| 申請號: | 201810810371.4 | 申請日: | 2018-07-20 |
| 公開(公告)號: | CN109101357A | 公開(公告)日: | 2018-12-28 |
| 發明(設計)人: | 孔帥 | 申請(專利權)人: | 廣東浪潮大數據研究有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 510620 廣東省廣州市天河區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對象存儲設備 反饋消息 檢測 監控器 發送 監視器 恢復過程 節點發現 前端業務 退出服務 觸發 更新 上報 中斷 | ||
本發明公開了一種OSD故障的檢測方法及裝置,用于減少監控器節點發現故障的對象存儲設備OSD的時間間隔,進而盡快觸發放置組PG的恢復過程,減少前端業務的中斷時間。本發明方法包括:當監視器Monitor檢測到第一對象存儲設備OSD發生異常時,通過第一OSD向Monitor上報第一OSD異常;通過Monitor更新OSDMAP;通過Monitor將更新后的OSDMAP發送至第一OSD所屬的目標放置組PG內的其他OSD;通過Monitor向第一OSD發送反饋消息,以使得第一OSD根據所述反饋消息退出服務。
技術領域
本發明涉及存儲領域,尤其涉及一種OSD故障的檢測方法及裝置。
背景技術
在分布式存儲集群中,讀寫請求都是先發送給一個放置組(place group,PG)內的主對象存儲設備(object storage device,OSD),再由主OSD發送給從OSD,主OSD和從OSD互為伙伴OSD,其中,每一個OSD都對應一塊磁盤,負責存儲數據和元數據。因此當主OSD發生故障時,PG就會停止處理讀寫請求。同一個PG內的OSD通過心跳來檢測伙伴OSD是否存在,當超過一定的時間未收到對方的心跳響應時,就認為伙伴OSD出現了故障,將所屬的PG置為降級狀態(degraded),并向監控器(Monitor)節點上報異常。當Monitor節點收到足夠多的異常上報時,將出現故障的OSD設置為down狀態,然后更新OSDMAP并推送給相關的OSD。PG在收到最新的OSDMAP后,會從其余正常的OSD中找個新的來代替出現故障的OSD,并將數據回填到該OSD上,之后PG狀態變為正常并開始處理業務。
在這整個過程中前端業務會中斷,中斷時間取決于Monitor發現OSD出現故障并更新OSDMAP的時間。
在現有方案中,每個OSD往往會承載上百個PG,而且肯定會在某個PG中作為主OSD,而在大規模的集群中發生因壞盤等問題導致OSD退出的現象也無法避免,因此現有方案會導致前端業務存在長時間中斷的風險。
發明內容
本發明實施例提供了一種OSD故障的檢測方法及裝置,用于減少監控器節點發現故障的對象存儲設備OSD的時間間隔,進而盡快觸發放置組PG的恢復過程,減少前端業務的中斷時間。
本發明第一方面提供了一種OSD故障的檢測方法,其特征在于,應用于分布式存儲系統,包括:當監視器Monitor檢測到第一對象存儲設備OSD發生異常時,通過第一OSD向Monitor上報第一OSD異常;通過Monitor更新OSDMAP;通過Monitor將更新后的OSDMAP發送至第一OSD所屬的目標放置組PG內的其他OSD;通過Monitor向第一OSD發送反饋消息,以使得第一OSD根據反饋消息退出服務。本發明實施例中,通過發生故障的對象存儲設備OSD向監視器主動上報異常,減少監控器節點發現故障OSD的時間間隔,進而盡快觸發放置組PG的恢復過程,減少前端業務的中斷時間。
在一種可能的設計中,在本發明實施例第一方面的第一種實現方式中,在所述通過所述Monitor向所述第一OSD發送反饋消息之后,所述方法還包括:通過Monitor確定新的主OSD;通過新的主OSD觸發目標PG的恢復過程。
在一種可能的設計中,在本發明實施例第一方面的第二種實現方式中,通過Monitor確定新的主OSD包括:通過Monitor設置第一OSD的狀態為down;通過Monitor更新OSDMAP并將更新后的OSDMAP發送至其他OSD;通過Monitor選擇其他OSD中的任意一個作為臨時的主OSD;通過臨時的主OSD確定第二OSD作為目標PG的新的主OSD。
在一種可能的設計中,在本發明實施例第一方面的第三種實現方式中,通過新的主OSD觸發目標PG的恢復過程包括:通過第二OSD確定第一OSD上存儲的目標數據;將目標數據寫入到第二OSD。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東浪潮大數據研究有限公司,未經廣東浪潮大數據研究有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810810371.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種監控軟件狀態的方法和裝置
- 下一篇:服務器系統及其硬件日志記錄裝置及方法





