[發明專利]一種存儲集群恢復方法及設備在審
| 申請號: | 201710866124.1 | 申請日: | 2017-09-22 |
| 公開(公告)號: | CN107665158A | 公開(公告)日: | 2018-02-06 |
| 發明(設計)人: | 王孝鵬 | 申請(專利權)人: | 鄭州云海信息技術有限公司 |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 羅滿 |
| 地址: | 450018 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 存儲 集群 恢復 方法 設備 | ||
技術領域
本發明涉及存儲技術領域,特別是涉及一種存儲集群恢復方法及設備。
背景技術
隨著存儲技術的發展,多數存儲系統都通過采用多個存儲控制器組成存儲控制器集群來提高存儲系統的性能和穩定性,當集群中某一個控制器節點發生故障時,其它節點能夠接替該控制器的工作,使整體系統保持工作,以保證讀取/寫入(Input/Output,I/O)不中斷。而且,當故障的控制器被替換或修復后,再加入集群時,集群能夠自動將該控制器節點恢復成與其它控制器一致,并恢復正常工作。
然而,上面的方案無法解決一種特殊場景。由于集群中所有控制器節點的軟件系統都是一致的,而且在運行過程中各節點的狀態也是一致的,因而存在一種可能,當集群運行到某一狀態或處理某個事件時,在所有控制器的軟件系統中觸發了同一個缺陷或軟件錯誤(Bug),導致所有控制器同時故障。此時所有控制器都無法工作,存儲系統的I/O會中斷。
因此,如何在多節點軟件失效場景下,能夠讓控制器自動恢復到故障前的狀態,并能夠自動組成集群,恢復工作,是本領域技術人員亟待解決的技術問題。
發明內容
有鑒于此,本發明的目的在于提供一種存儲集群恢復方法及設備,可以提高存儲系統在多控制器節點軟件失效場景下的恢復能力,以及系統的穩定性和可維護性。其具體方案如下:
一種存儲集群恢復方法,包括:
在存儲系統進程發生失效導致退出時,判斷當前集群中的各控制器節點的狀態是否一致;
若不一致,則向各所述控制器節點發送集群恢復事件,啟動集群恢復流程,同時自動重啟所述存儲系統進程。
優選地,在本發明實施例提供的上述存儲集群恢復方法中,啟動集群恢復流程,具體包括:
將所述存儲系統進程重啟前遺留的非關鍵數據清除,只保留集群恢復所需的關鍵數據;
根據所述關鍵數據,自動將所述集群恢復到失效前的狀態。
優選地,在本發明實施例提供的上述存儲集群恢復方法中,啟動集群恢復流程,具體還包括:
將各所述控制器節點恢復前未處理的事件丟棄;
同步各所述控制器節點的狀態,以使各所述控制器節點都處于同一狀態。
優選地,在本發明實施例提供的上述存儲集群恢復方法中,自動重啟所述存儲系統進程,具體包括:
所述存儲系統進程進行自動重啟,重新加入所述集群,開始I/O處理。
優選地,在本發明實施例提供的上述存儲集群恢復方法中,當前集群中的各控制器節點的狀態不一致,具體包括:
當前集群中超過半數的控制器節點同時發生軟件錯誤。
本發明實施例還提供了一種存儲集群恢復設備,包括:監控模塊;
所述監控模塊,用于在存儲系統進程發生失效導致退出時,判斷當前集群中的各控制器節點的狀態是否一致;若不一致,則向各所述控制器節點發送集群恢復事件,啟動集群恢復流程,同時自動重啟所述存儲系統進程。
優選地,在本發明實施例提供的上述存儲集群恢復設備中,所述監控模塊部署在所述集群中的每個所述控制器節點中。
本發明所提供的一種存儲集群恢復方法及設備,包括:在存儲系統進程發生失效導致退出時,判斷當前集群中的各控制器節點的狀態是否一致;若不一致,則向各控制器節點發送集群恢復事件,啟動集群恢復流程,同時自動重啟存儲系統進程。本發明在存儲系統進程發生失效導致退出時,能夠自動重啟進程,并智能判斷是否需要進入集群恢復流程,提高了存儲系統在多控制器節點軟件失效場景下的恢復能力,提高了系統的穩定性和可維護性。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據提供的附圖獲得其他的附圖。
圖1為本發明實施例提供的存儲集群恢復方法的流程圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
本發明提供一種存儲集群恢復方法,如圖1所示,包括:
S101、在存儲系統進程發生失效導致退出時,判斷當前集群中的各控制器節點的狀態是否一致;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州云海信息技術有限公司,未經鄭州云海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710866124.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種提高無盤速度體驗的方法
- 下一篇:一種充電蓋板





