[發(fā)明專利]在分布式集群中的可擴(kuò)展故障恢復(fù)通信有效
| 申請?zhí)枺?/td> | 201580043261.4 | 申請日: | 2015-08-09 |
| 公開(公告)號: | CN106663030B | 公開(公告)日: | 2020-09-18 |
| 發(fā)明(設(shè)計(jì))人: | A·庫瑪;A·德阿馬托;D·A·迪昂;G·尼沙諾維;L·S·科波魯;N·馬利瓦基 | 申請(專利權(quán))人: | 微軟技術(shù)許可有限責(zé)任公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 王茂華;楊立 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分布式 集群 中的 擴(kuò)展 故障 恢復(fù) 通信 | ||
各實(shí)施例涉及在節(jié)點(diǎn)集群中的計(jì)算節(jié)點(diǎn)之間進(jìn)行通信。在一種情況下,計(jì)算機(jī)系統(tǒng)從工作節(jié)點(diǎn)接收包括工作節(jié)點(diǎn)的當(dāng)前工作負(fù)載標(biāo)識(shí)符和健康狀態(tài)的數(shù)據(jù)分組,其中數(shù)據(jù)分組包括相關(guān)聯(lián)的版本號。計(jì)算機(jī)系統(tǒng)確定接收到的數(shù)據(jù)分組中的版本號不同于先前接收到的數(shù)據(jù)分組,并且評估工作節(jié)點(diǎn)的當(dāng)前工作負(fù)載配置以確定是否要在工作節(jié)點(diǎn)上做出工作負(fù)載變更。然后,在確定要在工作節(jié)點(diǎn)上做出工作負(fù)載變更時(shí),計(jì)算機(jī)系統(tǒng)選擇工作負(fù)載變更的子集以應(yīng)用于工作節(jié)點(diǎn),生成對工作節(jié)點(diǎn)的所選擇的工作負(fù)載變更的子集的指示,并向工作節(jié)點(diǎn)發(fā)送所生成的工作負(fù)載變更的指示。
背景技術(shù)
計(jì)算系統(tǒng)已經(jīng)變得無處不在,從小型嵌入式設(shè)備到手機(jī)和平板電腦,到PC和后端服務(wù)器。這些計(jì)算系統(tǒng)中的每一個(gè)被設(shè)計(jì)為處理軟件代碼。軟件允許用戶執(zhí)行功能,與由計(jì)算系統(tǒng)提供的硬件交互。在一些情況下,這些計(jì)算系統(tǒng)可以鏈接在一起以形成計(jì)算資源的云。這些云資源可以包括托管、處理、數(shù)據(jù)存儲(chǔ)或其他服務(wù)。這些云資源被設(shè)計(jì)為容錯(cuò)的,使得一個(gè)計(jì)算系統(tǒng)可以在需要時(shí)立即替換另一個(gè)計(jì)算系統(tǒng)。然而,這種容錯(cuò)系統(tǒng)可能生成大量的云內(nèi)網(wǎng)絡(luò)流量,從而確保系統(tǒng)正常工作。
本文描述的實(shí)施例涉及在節(jié)點(diǎn)集群中的計(jì)算節(jié)點(diǎn)之間進(jìn)行通信。在一個(gè)實(shí)施例中,計(jì)算機(jī)系統(tǒng)(例如主節(jié)點(diǎn))從工作節(jié)點(diǎn)(worker node,或工作者節(jié)點(diǎn))接收包括工作節(jié)點(diǎn)的當(dāng)前工作負(fù)載標(biāo)識(shí)符和健康狀態(tài)的數(shù)據(jù)分組,其中數(shù)據(jù)分組包括相關(guān)聯(lián)的版本號。計(jì)算機(jī)系統(tǒng)確定接收到的數(shù)據(jù)分組中的版本號不同于先前發(fā)送到工作節(jié)點(diǎn)的最新工作負(fù)載配置的版本,并且評估工作節(jié)點(diǎn)的當(dāng)前工作負(fù)載配置以確定是否要在工作節(jié)點(diǎn)上做出工作負(fù)載變更。然后,在確定要在工作節(jié)點(diǎn)上做出工作負(fù)載變更時(shí),計(jì)算機(jī)系統(tǒng)選擇工作負(fù)載變更的子集以應(yīng)用于工作節(jié)點(diǎn),生成對工作節(jié)點(diǎn)的所選擇的工作負(fù)載變更的子集的指示,并向工作節(jié)點(diǎn)發(fā)送所生成的工作負(fù)載變更的指示。
在另一實(shí)施例中,計(jì)算機(jī)系統(tǒng)(例如工作節(jié)點(diǎn))生成包括工作負(fù)載標(biāo)識(shí)符(ID)的列表的數(shù)據(jù)分組,該工作負(fù)載標(biāo)識(shí)符由工作節(jié)點(diǎn)負(fù)責(zé)。數(shù)據(jù)分組還包括針對每個(gè)工作負(fù)載ID的版本號和工作負(fù)載健康狀態(tài)。計(jì)算機(jī)系統(tǒng)向節(jié)點(diǎn)集群中的主節(jié)點(diǎn)發(fā)送所生成的數(shù)據(jù)分組,并且接收差量數(shù)據(jù)分組,該差量數(shù)據(jù)分組包括指定將應(yīng)用于工作節(jié)點(diǎn)的工作負(fù)載中的至少一個(gè)工作負(fù)載的所選擇的變更的子集的信息。然后,計(jì)算機(jī)系統(tǒng)將所選擇的工作負(fù)載變更的子集應(yīng)用于工作節(jié)點(diǎn)上的工作負(fù)載。
本發(fā)明內(nèi)容被提供以用于以簡化形式介紹概念的選擇,其在以下的具體實(shí)施方式中將做出進(jìn)一步的描述。本發(fā)明內(nèi)容并不旨在識(shí)別要求保護(hù)的主題的關(guān)鍵特征或者核心特征,其也并不旨在被用來確定要求保護(hù)的主題的范圍。
附加的特征和優(yōu)點(diǎn)將在下面的描述中闡述,并且從描述中部分地對于本領(lǐng)域的普通技術(shù)人員將是顯而易見的,或者可以通過實(shí)踐本文的教導(dǎo)而習(xí)得。本文描述的實(shí)施例的特征和優(yōu)點(diǎn)可以通過在所附權(quán)利要求中特別指出的手段和組合來實(shí)現(xiàn)和獲得。通過以下描述和所附權(quán)利要求,本文描述的實(shí)施例的特征將變得更加顯而易見。
附圖說明
為了進(jìn)一步闡明本文描述的實(shí)施例的上述和其他特征,將通過參考附圖給出更具體的描述。應(yīng)當(dāng)理解,這些附圖僅僅描繪了本文所描述的實(shí)施例的示例,因此不應(yīng)被認(rèn)為是對其范圍的限制。將通過使用附圖以附加的特性和細(xì)節(jié)來描述和解釋實(shí)施例,在附圖中:
圖1示出了計(jì)算機(jī)體系結(jié)構(gòu),其中本文描述的實(shí)施例可以包括在節(jié)點(diǎn)集群中的計(jì)算節(jié)點(diǎn)之間進(jìn)行通信。
圖2示出了用于在節(jié)點(diǎn)集群中的計(jì)算節(jié)點(diǎn)之間通信的示例方法的流程圖。
圖3示出了用于在節(jié)點(diǎn)集群中的計(jì)算節(jié)點(diǎn)之間通信的備選示例方法的流程圖。
圖4示出了其中主集群中的主節(jié)點(diǎn)正在監(jiān)視和控制工作集群中的工作節(jié)點(diǎn)的實(shí)施例。
圖5示出了其中主節(jié)點(diǎn)和工作節(jié)點(diǎn)使用心跳分組和差量數(shù)據(jù)分組進(jìn)行通信的實(shí)施例。
圖6示出了其中工作節(jié)點(diǎn)確定工作節(jié)點(diǎn)與主節(jié)點(diǎn)之間的物理鏈路上的連通性的實(shí)施例。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于微軟技術(shù)許可有限責(zé)任公司,未經(jīng)微軟技術(shù)許可有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201580043261.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時(shí)維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺(tái)多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點(diǎn)和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)介質(zhì)
- 混合云場景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)





