[發(fā)明專利]分布式網(wǎng)絡(luò)中的共享保活和故障檢測機制有效
| 申請?zhí)枺?/td> | 201280073493.0 | 申請日: | 2012-03-27 |
| 公開(公告)號: | CN104509033B | 公開(公告)日: | 2018-03-13 |
| 發(fā)明(設(shè)計)人: | 蔡學(xué)軍 | 申請(專利權(quán))人: | 愛立信(中國)通信有限公司 |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26 |
| 代理公司: | 中國專利代理(香港)有限公司72001 | 代理人: | 徐予紅,劉春元 |
| 地址: | 100102 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分布式 網(wǎng)絡(luò) 中的 共享 故障 檢測 機制 | ||
技術(shù)領(lǐng)域
本發(fā)明一般涉及與分布式網(wǎng)絡(luò)中的保活和故障檢測機制相關(guān)的系統(tǒng)、軟件和方法,并且更具體地說,涉及用于有效檢測分布式網(wǎng)絡(luò)中失效節(jié)點的機制和技術(shù)。
背景技術(shù)
分布式網(wǎng)絡(luò)今天被用在各種上下文中,例如用于文件共享或IP語音。分布式網(wǎng)絡(luò)包含網(wǎng)格、云、分布式數(shù)據(jù)庫和對等(P2P)系統(tǒng)。它們演示了以靈活方式的分散式和自組織資源定位和使用的能力。
如圖1所示,分布式網(wǎng)絡(luò)100包含與其它節(jié)點互連的高數(shù)量的節(jié)點102(與常規(guī)客戶端-服務(wù)器網(wǎng)絡(luò)相比)。為了實現(xiàn)一致性并向節(jié)點提供所設(shè)計的應(yīng)用或服務(wù),通常節(jié)點、鏈路和/或資源(應(yīng)用或服務(wù))的可用性有必要對其它節(jié)點已知。從而,在此類分布式系統(tǒng)中,節(jié)點、鏈路和/或資源的可用性當前由一些保活(心跳)機制提供,在這些機制中在節(jié)點之間定期交換短消息以檢測節(jié)點或鏈路的故障/可用性。
換句話說,節(jié)點104向鄰居節(jié)點108發(fā)送保活消息106。如果在節(jié)點104未從節(jié)點108接收到答復(fù),則節(jié)點104假定節(jié)點108停機(已經(jīng)失效)。這對于網(wǎng)絡(luò)100的每個節(jié)點102都是正確的,即,網(wǎng)絡(luò)的每個節(jié)點都不斷地探測它連接到的其它節(jié)點。重要特性并且也是在分布式網(wǎng)絡(luò)中使用保活機制的主要原因是:保活機制主動地允許在基礎(chǔ)應(yīng)用或服務(wù)需要這些節(jié)點和連接之前檢測節(jié)點或連接停止。
為了增強節(jié)點和/或服務(wù)的可用性并盡可能快速地檢測故障,需要在現(xiàn)有分布式網(wǎng)絡(luò)中以高頻率交換保活消息。然而,在強互連的大規(guī)模分布式網(wǎng)絡(luò)中,保活機制引入了節(jié)點之間的大量信令和通信開銷,并且從而,限制了網(wǎng)絡(luò)的可縮放性。因此,存在對于用于不斷增大的分布式系統(tǒng)的有效保活和故障檢測機制的需要。
現(xiàn)在討論現(xiàn)有機制的幾個限制。在當前分布式網(wǎng)絡(luò)中使用的一個機制是如A. Rowstron和P. Druschel的“Pastry: Scalable, distributed object location and routing for large-scale peer-to-peer systems”(IF IP/ACM Middleware, 2001)和Mahajan等人的“Controlling the Cost of Reliability in P2P Overlays”(Proc. IP TP S2003)所描述的基本保活(BK)機制。在此機制中,通過網(wǎng)絡(luò)從一個節(jié)點104向每個鄰居節(jié)點108、110、112、114和116發(fā)送保活查詢,并且每個鄰居節(jié)點108、110、112、114和116向查詢節(jié)點104發(fā)送回保活答復(fù)消息。當保活答復(fù)消息到達時,查詢節(jié)點104知道另一節(jié)點仍存活并且鏈路在起作用。在兩個方向每k秒定期發(fā)起保活消息傳送,并且k稱為保活間隔。直接連接到節(jié)點x(104)的節(jié)點(108、110、112、114和116)的集合稱為節(jié)點x的鄰域集合(N(x))。
用BK機制,每個節(jié)點獨立于系統(tǒng)中的所有其它節(jié)點而管理。例如,都連接到第三節(jié)點108的兩個節(jié)點104和120不共享有關(guān)它們公共節(jié)點108的任何信息,因此保活任務(wù)必須執(zhí)行兩次,一次由節(jié)點104并且一次由節(jié)點120,以便確定節(jié)點108是存活的。這將導(dǎo)致兩個保活消息每k秒從節(jié)點104和120到達節(jié)點108。當然,節(jié)點108可連接到也發(fā)送保活消息的其它節(jié)點,從而進一步增大由節(jié)點108接收的消息量。
雖然BK機制直觀并且容易實現(xiàn),但系統(tǒng)大小或互連程度的增大引入了大量傳統(tǒng)保活信令業(yè)務(wù),這使分布式系統(tǒng)的性能降級。
為了解決基本保活機制的這個限制,Dedinski等人("Cooperative Keep-Alives: An Efficient Outage Detection Algorithm for P2P Overlay Networks," Peer-to-Peer Computing, 2007)已經(jīng)提出了合作保活(CK)機制。在此機制中,來自目標節(jié)點的鄰域集合的所有節(jié)點都向目標節(jié)點連續(xù)發(fā)送保活請求,并且目標節(jié)點配置成對來自鄰域集合的節(jié)點答復(fù)以確保目標節(jié)點仍然存活。請求以某一頻率發(fā)送,由目標節(jié)點控制。目標節(jié)點的目的是確保所有進來的保活請求的頻率都接近期望的恒定間隔k,獨立于其鄰域集合的(通常改變的)大小。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于愛立信(中國)通信有限公司,未經(jīng)愛立信(中國)通信有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201280073493.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





