[發(fā)明專利]一種分布式系統(tǒng)網(wǎng)絡性能分析及故障診斷方法有效
| 申請?zhí)枺?/td> | 201410508685.0 | 申請日: | 2014-09-28 |
| 公開(公告)號: | CN104270268B | 公開(公告)日: | 2017-12-05 |
| 發(fā)明(設計)人: | 張攀勇;彭成;季旻;苗艷超 | 申請(專利權)人: | 曙光信息產(chǎn)業(yè)股份有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26 |
| 代理公司: | 北京安博達知識產(chǎn)權代理有限公司11271 | 代理人: | 徐國文 |
| 地址: | 300384 天津市西青區(qū)華*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 系統(tǒng) 網(wǎng)絡 性能 分析 故障診斷 方法 | ||
1.一種分布式系統(tǒng)網(wǎng)絡性能分析及故障診斷方法,其特征在于:所述方法包括以下步驟:
步驟1:在被監(jiān)控的分布式系統(tǒng)上部署監(jiān)控服務;
步驟2:根據(jù)分布式系統(tǒng)的特征,運行管理服務;
步驟3:進行網(wǎng)絡拓撲發(fā)現(xiàn);
步驟4:確定被監(jiān)控節(jié)點的監(jiān)控節(jié)點集合;
步驟5:管理服務收集節(jié)點狀態(tài)信息并進行分析;
步驟6:網(wǎng)絡性能探測;
步驟7:網(wǎng)絡狀態(tài)分析,確定可能存在的故障;
所述步驟1中,根據(jù)被監(jiān)控的分布式系統(tǒng)規(guī)模,確定被監(jiān)控節(jié)點,并在被監(jiān)控節(jié)點上部署監(jiān)控服務;所述被監(jiān)控節(jié)點定義為分布式系統(tǒng)中需要被監(jiān)控的服務所在節(jié)點,包括服務器和網(wǎng)絡設備;
監(jiān)控服務負責監(jiān)控所在節(jié)點的網(wǎng)絡狀態(tài),包括網(wǎng)卡的硬件狀態(tài)和操作系統(tǒng)提供的性能計數(shù)信息;
監(jiān)控服務接收管理服務的命令并執(zhí)行,命令包括網(wǎng)絡探測命令和網(wǎng)絡性能測試命令;
監(jiān)控服務根據(jù)管理服務發(fā)出的網(wǎng)絡探測命令,進行網(wǎng)絡探測;并根據(jù)管理服務發(fā)出的網(wǎng)絡性能測試命令,進行節(jié)點之間的網(wǎng)絡性能測試;
所述步驟2中,在管理節(jié)點上運行管理服務,管理服務根據(jù)分布式系統(tǒng)特征,選擇被監(jiān)控節(jié)點,啟動監(jiān)控服務,并與被監(jiān)控節(jié)點上的監(jiān)控服務相連接;
管理服務與監(jiān)控服務的連接方式根據(jù)分布式系統(tǒng)的規(guī)模而定:
對于小規(guī)模分布式系統(tǒng),管理服務直接與所有的監(jiān)控服務連接;
對于大規(guī)模分布式系統(tǒng),管理服務采用樹形層級方式連接,即上層管理服務管理不同分區(qū)的管理服務,單個分區(qū)管理服務只管理設定數(shù)量的節(jié)點和網(wǎng)絡;
所述步驟3中,管理服務對分布式系統(tǒng)的所有網(wǎng)絡設備發(fā)起網(wǎng)絡拓撲發(fā)現(xiàn),以確定網(wǎng)絡拓撲信息,并將網(wǎng)絡該拓撲信息存儲到管理服務中;如果分布式系統(tǒng)所處的網(wǎng)絡設備不支持拓撲發(fā)現(xiàn),則根據(jù)管理員提供的拓撲配置構建網(wǎng)絡拓撲信息;
所述步驟4中,被監(jiān)控節(jié)點支持以下三種監(jiān)控方式:
(1)全系統(tǒng)掃描方式:對分布式系統(tǒng)的所有節(jié)點和網(wǎng)絡設備進行掃描,則監(jiān)控節(jié)點集合為系統(tǒng)內(nèi)部所有節(jié)點和網(wǎng)絡設備;
(2)管理員指定方式:管理員通過配置指定監(jiān)控節(jié)點集合;
(3)應用程序指定,故障時監(jiān)控集合掃描方式:應用程序通過API指定監(jiān)控節(jié)點集合,系統(tǒng)在發(fā)現(xiàn)可疑故障之后針對特定節(jié)點掃描;該監(jiān)控方式的具體過程如下:
3-1):應用程序指定需要監(jiān)控的節(jié)點;
3-2):監(jiān)控服務定期監(jiān)控節(jié)點的狀態(tài),如果發(fā)現(xiàn)網(wǎng)絡狀態(tài)異常,則將本節(jié)點的異常通信狀態(tài)主動通知給管理服務;
3-3):管理服務在接收到節(jié)點異常通信狀態(tài)通知后,根據(jù)網(wǎng)絡拓撲計算出通信路徑,將通信路徑上的所有網(wǎng)絡設備和節(jié)點,加入監(jiān)控節(jié)點列表;
所述步驟5包括以下步驟:
步驟5-1:管理服務向監(jiān)控節(jié)點集合中的監(jiān)控服務發(fā)起節(jié)點狀態(tài)信息收集命令;
步驟5-2:監(jiān)控服務接收到節(jié)點狀態(tài)信息收集命令后,收集本節(jié)點網(wǎng)絡設備的狀態(tài),并將結果返回給管理服務;
步驟5-3:管理服務收集到所有節(jié)點的狀態(tài)信息進行分析,確認存在故障的網(wǎng)絡設備,并將存在故障的網(wǎng)絡設備在管理服務的網(wǎng)絡拓撲信息中標出;
步驟5-4:管理服務將存在故障的網(wǎng)絡設備的列表上報給管理員,通知管理員進行維護;
所述步驟6包括以下步驟:
步驟6-1:管理服務向監(jiān)控節(jié)點集合中的監(jiān)控節(jié)點成對發(fā)起主動網(wǎng)絡性能探測,性能指標包括雙向網(wǎng)絡延遲、網(wǎng)絡帶寬和網(wǎng)絡性能穩(wěn)定性,并收集節(jié)點路徑上的所有網(wǎng)絡設備的計數(shù)器;
步驟6-2:節(jié)點上的監(jiān)控服務在收到網(wǎng)絡性能探測請求后,主動向對應節(jié)點發(fā)起探測消息操作,并將結果返回給管理服務;
步驟6-3:管理服務選擇成對監(jiān)控節(jié)點的算法,包括排列組合算法和貪心算法;
所述步驟7中,管理服務在接收到步驟5和步驟6的結果之后,根據(jù)步驟3獲得的網(wǎng)絡拓撲信息進行網(wǎng)絡狀態(tài)分析,綜合所有網(wǎng)絡設備的計數(shù)器以及節(jié)點之間的通信測試性能,確定存在故障的網(wǎng)絡設備或者鏈路,可能存在的故障包括網(wǎng)卡設備硬件故障、網(wǎng)卡工作模式錯誤、網(wǎng)卡接口與節(jié)點接口不匹配、連接線纜斷開、連接線纜不穩(wěn)定和交換機故障。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曙光信息產(chǎn)業(yè)股份有限公司,未經(jīng)曙光信息產(chǎn)業(yè)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410508685.0/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質
- 網(wǎng)絡管理方法和裝置





