[發明專利]分布式存儲系統的故障處理方法及裝置、電子設備有效
| 申請號: | 202010463289.6 | 申請日: | 2020-05-27 |
| 公開(公告)號: | CN111628893B | 公開(公告)日: | 2022-07-12 |
| 發明(設計)人: | 肖永玲;劉名欣;張旭明;王豪邁;胥昕 | 申請(專利權)人: | 北京星辰天合科技股份有限公司 |
| 主分類號: | H04L41/0659 | 分類號: | H04L41/0659;H04L67/1097;G06F11/07 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 周春枚 |
| 地址: | 100094 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 存儲系統 故障 處理 方法 裝置 電子設備 | ||
本發明公開了一種分布式存儲系統的故障處理方法及裝置、電子設備。其中,該方法包括:在確定目標數據中心之間出現網絡故障時,利用目標數據中心中的預設數據落盤進程OSD檢測是否出現區域級別故障;在確定出現區域級別故障時,對出現區域級別故障的故障域進行分區處理,得到多個網絡分區;獲取多個網絡分區中滿足預設篩選條件的目標網絡分區,并確定非目標網絡分區為故障網絡分區;控制目標網絡分區中每個數據落盤進程OSD進行切換,以使分布式存儲系統正常訪問業務,并控制故障網絡分區中的數據落盤進程OSD停止訪問業務。本發明解決了相關技術中分布式存儲雙活系統發生腦裂時互相爭搶共享資源,容易導致系統混亂、業務不可用的技術問題。
技術領域
本發明涉及分布式存儲系統領域,具體而言,涉及一種分布式存儲系統的故障處理方法及裝置、電子設備。
背景技術
相關技術中,對于分布式存儲系統,尤其是存儲雙活系統,當聯系兩個節點(或數據中心)的“心跳線”斷開時(即兩個節點或數據中心斷開聯系時),本來為一個整體、動作協調的雙活系統,就分裂成為兩個獨立的系統。由于相互失去了聯系,都以為是對方出了故障,兩個系統上的雙活軟件像“裂腦人”一樣,“本能”地爭搶“共享資源”、爭搶“應用服務”,這樣會產生較為嚴重的弊端:1)或者共享資源被瓜分、兩邊“服務”都起不來了;2)或者兩邊“服務”都起來了,但同時讀寫“共享存儲”,導致數據損壞(如數據庫輪詢的聯機日志出錯),兩個系統相互爭搶共享資源,結果會導致系統混亂,數據損壞。
由于雙活系統在發生腦裂時,會帶來長時間的存儲讀寫IO HANG住,輕則導致業務性能下降,重則因磁盤IO超時,導致數據庫掛起甚至宕機,對生產業務系統造成重大影響。
在分布式雙活系統中,腦裂處理主要是在兩個數據中心之間網絡不通時,避免監控服務頻繁選舉和腦裂,但是OSD(Object Storage Device,是指負責數據落盤的一個進程)之間會相互檢測心跳,當兩個數據中心網絡不通時,都會向監控服務中心上報對方故障,從而導致大量OSD宕機。同時OSD宕機后會ping一部分up的OSD,如果能ping通1/3會再次up,這樣就導致OSD不停down/up。即OSD出現腦裂不停down/up會導致pg down,業務徹底不可用。由于可能降級寫,導致數據單副本存在一個站點,即使后續只有一邊的OSD down,一邊up,也會導致pg down。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種分布式存儲系統的故障處理方法及裝置、電子設備,以至少解決相關技術中分布式存儲雙活系統發生腦裂時互相爭搶共享資源,容易導致系統混亂、業務不可用的技術問題。
根據本發明實施例的一個方面,提供了一種分布式存儲系統的故障處理方法,應用于預設分布式存儲系統,所述預設分布式存儲系統包括多個數據中心,每個所述數據中心包括多個數據落盤進程OSD,所述故障處理方法包括:在確定目標數據中心之間出現網絡故障時,利用所述目標數據中心中的預設數據落盤進程OSD檢測是否出現區域級別故障;在確定出現區域級別故障時,對出現區域級別故障的故障域進行分區處理,得到多個網絡分區;獲取所述多個網絡分區中滿足預設篩選條件的目標網絡分區,并確定非目標網絡分區為故障網絡分區;控制所述目標網絡分區中每個數據落盤進程OSD進行切換,以使分布式存儲系統正常訪問業務,并控制所述故障網絡分區中的數據落盤進程OSD停止訪問業務。
可選地,利用所述目標數據中心中的預設數據落盤進程OSD檢測是否出現區域級別故障的步驟,包括:利用所述預設數據落盤進程OSD獲取其它非目標數據中心對應的區域信息,其中,所述區域信息至少包括:每個數據落盤進程OSD的地址和心跳標識;利用所述預設數據落盤進程OSD基于所述區域信息,依次訪問所述區域信息中每個數據落盤進程OSD,得到訪問結果;若所述訪問結果指示網絡故障或者通訊超時,則確定出現區域級別故障。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京星辰天合科技股份有限公司,未經北京星辰天合科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010463289.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種計算機主板接口通電拔出保護裝置
- 下一篇:風控模型的監控方法及裝置





