[發(fā)明專利]群集系統(tǒng)中管理故障轉(zhuǎn)移的裝置和方法有效
| 申請?zhí)枺?/td> | 201210047999.6 | 申請日: | 2012-02-28 |
| 公開(公告)號: | CN103297396A | 公開(公告)日: | 2013-09-11 |
| 發(fā)明(設(shè)計)人: | 白海瑞 | 申請(專利權(quán))人: | 國際商業(yè)機(jī)器公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/08 |
| 代理公司: | 北京市中咨律師事務(wù)所 11247 | 代理人: | 周良玉;于靜 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 群集 系統(tǒng) 管理 故障 轉(zhuǎn)移 裝置 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及集群系統(tǒng),更具體而言,涉及集群系統(tǒng)中管理故障轉(zhuǎn)移的裝置和方法。
背景技術(shù)
信息技術(shù)的發(fā)展為人們提供了越來越豐富和強(qiáng)大的應(yīng)用和服務(wù),同時也對處理設(shè)備的運(yùn)算能力和存儲能力提出了越來越高的要求。為此,提出了集群系統(tǒng)來存儲和處理海量信息和數(shù)據(jù),并以高度可用性為用戶提供各種服務(wù)。
集群系統(tǒng)由一組計算設(shè)備構(gòu)成,所述計算設(shè)備通過硬件和軟件互相連接,共同操作,從而作為單系統(tǒng)映像來提供服務(wù)。這樣的計算設(shè)備被稱為集群中的節(jié)點(diǎn)。對于大多數(shù)集群系統(tǒng),為了保持單系統(tǒng)映像,需要防止集群由于節(jié)點(diǎn)故障或節(jié)點(diǎn)間通信設(shè)施的故障而分裂成多個獨(dú)立系統(tǒng)。也就是說,如果節(jié)點(diǎn)從主集群斷開連接從而不能與單系統(tǒng)映像保持一致和更新,那么首先要確保該節(jié)點(diǎn)停止處理客戶請求,然后才能允許主集群進(jìn)行進(jìn)一步的操作,將該斷連節(jié)點(diǎn)執(zhí)行的工作重新分配到集群中的存活節(jié)點(diǎn)。在允許主集群前進(jìn)之前必須關(guān)停斷連節(jié)點(diǎn),這意味著,關(guān)停斷連節(jié)點(diǎn)所花費(fèi)的時間決定了主集群所提供的服務(wù)在從故障或斷連節(jié)點(diǎn)恢復(fù)過來的過程中變得不可用的最小時間。因此,為了創(chuàng)建一個高可用的容錯集群系統(tǒng),非常關(guān)鍵的就是縮短關(guān)停斷連節(jié)點(diǎn)所花費(fèi)的時間,使得主集群能夠在節(jié)點(diǎn)或節(jié)點(diǎn)間連接出現(xiàn)故障之后盡快恢復(fù)其可用性。
現(xiàn)有技術(shù)中已經(jīng)提出了多種方案來關(guān)停故障節(jié)點(diǎn),并確保集群以單系統(tǒng)映像繼續(xù)其操作。一種方案是基于租約(lease)的機(jī)制。租約允許節(jié)點(diǎn)代表集群來提供服務(wù)。相應(yīng)地,基于租約的機(jī)制在集群的節(jié)點(diǎn)之間傳遞消息來為節(jié)點(diǎn)授權(quán)租約,從而限定節(jié)點(diǎn)被允許以集群的名義進(jìn)行操作的時間周期。在失去通信聯(lián)系的情況下,從集群斷連的節(jié)點(diǎn)就不再能夠接收到租約更新消息,于是在其租約到期的時候會主動地停止集群服務(wù)。另一方面,主集群會等待不少于租約周期的時間(通常是租約周期加上一些額外的時間以考慮到時鐘的偏移),然后才能夠確認(rèn)斷連的節(jié)點(diǎn)已經(jīng)關(guān)停,從而允許將故障節(jié)點(diǎn)的工作轉(zhuǎn)移到集群中的存活節(jié)點(diǎn)。
如上所述,租約時間限定了出現(xiàn)故障之后服務(wù)不可用的最小時間段。因此,集群使用的租約時間越短,故障轉(zhuǎn)移的時間越快。然而,同時,租約時間越短,集群中的節(jié)點(diǎn)就要越頻繁地延長其租約,于是維持租約的成本和開銷就越大。也就是說,基于租約的機(jī)制對于租約時間具有相互矛盾的要求,一方面有必要使得租約時間盡量短以允許集群的快速回復(fù),另一方面,又希望租約時間足夠長來減小租約更新的頻率,防止集群節(jié)點(diǎn)過量負(fù)載時出現(xiàn)假性的租約到期。針對租約時間的矛盾要求意味著,利用基于租約的機(jī)制,很難實(shí)現(xiàn)集群服務(wù)的快速恢復(fù)。
為了促進(jìn)集群服務(wù)的迅速恢復(fù),還提出了改進(jìn)的基于租約的機(jī)制。在這樣的改進(jìn)機(jī)制中,節(jié)點(diǎn)如果知道它即將出現(xiàn)故障或從集群斷連,就會向集群中的其他節(jié)點(diǎn)發(fā)送一個租約放棄消息,以此來主動放棄租約的繼續(xù)。該消息使得主集群能夠知曉故障節(jié)點(diǎn)已經(jīng)關(guān)停,而不必等待整個租約周期,因此主集群能夠快速恢復(fù)可用性。這對于傳統(tǒng)的基于租約的機(jī)制來說是一項(xiàng)很有用的改進(jìn),但是它僅僅在節(jié)點(diǎn)能夠意識到它即將出現(xiàn)故障而同時又足夠正常來發(fā)出放棄消息的情況下適用。在很多情況下,節(jié)點(diǎn)突然出現(xiàn)故障或失去連接,這時,主集群仍然需要至少等待一整個租約周期來確保租約已經(jīng)到期。因此,上述改進(jìn)的機(jī)制的應(yīng)用非常有限。
另一種關(guān)停故障節(jié)點(diǎn)的方案稱為STONITH機(jī)制。STONITH是擊中另一節(jié)點(diǎn)的頭部(shoot-the-other-node-in-the-head)的縮寫,它描述了這樣一種機(jī)制,其中存活的集群節(jié)點(diǎn)利用硬件機(jī)制直接迫使嫌疑節(jié)點(diǎn)關(guān)停。利用STONITH機(jī)制,可以很容易地使得關(guān)停斷連節(jié)點(diǎn)的時間非常短,從而允許集群快速恢復(fù)。然而,STONITH機(jī)制要求在其操作的臨界時期具有存活的通信路徑,因此并不適用于涉及遠(yuǎn)程節(jié)點(diǎn)通信的集群系統(tǒng)。
因此,希望提出一種方案,能夠有效地管理節(jié)點(diǎn)的連接和故障轉(zhuǎn)移,從而提供高可用性的集群系統(tǒng)。
發(fā)明內(nèi)容
鑒于以前提出的現(xiàn)有技術(shù)中存在的問題,提出本發(fā)明,以改進(jìn)集群系統(tǒng)的可用性。
根據(jù)本發(fā)明一個實(shí)施例,提供一種在集群系統(tǒng)中管理故障轉(zhuǎn)移的裝置,所述集群系統(tǒng)包括通過第一組鏈路彼此連接的多個子集群,每個子集群包括通過第二組鏈路彼此連接的多個節(jié)點(diǎn),所述裝置包括:確定單元,配置為通過第二組鏈路中的至少一個確定同一子集群中的嫌疑節(jié)點(diǎn)已經(jīng)關(guān)停;以及通知單元,配置為響應(yīng)于所述確定,代表所述嫌疑節(jié)點(diǎn)發(fā)送租約放棄消息。
根據(jù)本發(fā)明另一實(shí)施例,提供一種集群系統(tǒng)中的節(jié)點(diǎn),所述節(jié)點(diǎn)包括根據(jù)前一實(shí)施例所述的裝置。
根據(jù)本發(fā)明又一實(shí)施例,提供一種集群系統(tǒng),包括根據(jù)前一實(shí)施例所述的節(jié)點(diǎn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機(jī)器公司,未經(jīng)國際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210047999.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





