[發明專利]集群節點故障業務快速恢復方法、裝置、設備及存儲介質有效
| 申請號: | 201810836340.6 | 申請日: | 2018-07-26 |
| 公開(公告)號: | CN108958991B | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 孫業寬 | 申請(專利權)人: | 鄭州云海信息技術有限公司 |
| 主分類號: | G06F11/20 | 分類號: | G06F11/20;G06F11/14 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 450018 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 集群 節點 故障 業務 快速 恢復 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種集群節點故障業務快速恢復方法、裝置、設備及存儲介質,該方法包括:添加數據庫恢復開關;當CTDB集群有節點故障時,判斷所述數據庫恢復開關是否開啟;若是,則更改CTDB狀態為活躍狀態,執行數據庫恢復流程,進行虛擬IP的重新分配;若否,則保持CTDB狀態為正常狀態,跳過所述數據庫恢復流程,直接進行所述虛擬IP的重新分配。本申請通過添加數據庫恢復開關,增加靈活性,跳過節點故障CTDB的數據庫恢復流程,并保持CTDB狀態為正常狀態,只保留虛擬IP分配流程,將CTDB故障切換恢復時間由6秒縮短到2秒,縮短了4秒,縮短了集群節點故障恢復時間,提高了分布式存儲集群穩定性和高可用特性。
技術領域
本發明涉及分布式存儲技術領域,特別是涉及一種集群節點故障業務快速恢復方法、裝置、設備及存儲介質。
背景技術
目前,輕量級集群數據庫(clustered trivial database,簡稱CTDB)是一套集群高可用管理軟件,負責監控集群節點狀態和虛擬IP的分配,在集群中的節點發生故障時CTDB主節點會執行故障切換,包括:數據庫恢復和虛擬IP重新分配,發生故障切換時CTDB的狀態會變為ACTIVE;數據庫恢復流程包括:凍結數據庫、從所有節點收集數據庫記錄、在本地合并數據庫記錄保證每條記錄都是最新的、所有節點刪除數據庫、將合并后的記錄推送到所有節點,該流程耗時約4秒,如果某個流程失敗會數據庫恢復時間會更長;在不使用samba服務時,其他網絡文件系統比如ganesha集群高可用方案,只需要用到虛擬IP漂移,即虛擬IP完成漂移,業務相應的轉到其他節點繼續提供服務,虛擬IP漂移流程總耗時約2秒。
數據庫恢復流程在虛擬IP分配之前,且只有數據庫恢復流程執行成功才會進行虛擬IP的重新分配,CTDB屬于samba的一個組件,其數據庫主要保存samba服務相關的信息,與samba的耦合性較高,CTDB可剝離出作為單獨的集群高可用軟件,用于管理除samba之外的其他服務,例如ganesha等,負責管理ganesha的啟動停止等等,在不用samba服務時節點故障CTDB執行故障恢復動作仍然會首先執行數據庫恢復,數據庫恢復成功之后再進行虛擬IP的重新分配,如此數據庫恢復和虛擬IP分配增大了故障切換時間,一般總耗時約6秒,時間較長。
因此,如何縮短集群節點故障恢復時間,是本領域技術人員亟待解決的技術問題。
發明內容
有鑒于此,本發明的目的在于提供一種集群節點故障業務快速恢復方法、裝置、設備及存儲介質,可以將CTDB故障切換恢復時間縮短為2秒,提高分布式存儲集群穩定性和高可用特性。其具體方案如下:
一種集群節點故障業務快速恢復方法,包括:
添加數據庫恢復開關;
當CTDB集群有節點故障時,判斷所述數據庫恢復開關是否開啟;
若是,則更改CTDB狀態為活躍狀態,執行數據庫恢復流程,所述數據庫恢復流程執行成功后再進行虛擬IP的重新分配;
若否,則保持CTDB狀態為正常狀態,跳過所述數據庫恢復流程,直接進行所述虛擬IP的重新分配。
優選地,在本發明實施例提供的上述集群節點故障業務快速恢復方法中,
所述數據庫恢復開關在使用samba的高可用集群中為開啟狀態;
所述數據庫恢復開關在不使用samba的高可用集群中為關閉狀態。
本發明實施例還提供了一種集群節點故障業務快速恢復裝置,包括:
開關添加模塊,用于添加數據庫恢復開關;
開關判斷模塊,用于當CTDB集群有節點故障時,判斷所述數據庫恢復開關是否開啟;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州云海信息技術有限公司,未經鄭州云海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810836340.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種提高現場可更換單元信息可靠性的方法和裝置
- 下一篇:測試方法和裝置





