[發明專利]一種分布式系統網絡性能分析及故障診斷方法有效
| 申請號: | 201410508685.0 | 申請日: | 2014-09-28 |
| 公開(公告)號: | CN104270268B | 公開(公告)日: | 2017-12-05 |
| 發明(設計)人: | 張攀勇;彭成;季旻;苗艷超 | 申請(專利權)人: | 曙光信息產業股份有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26 |
| 代理公司: | 北京安博達知識產權代理有限公司11271 | 代理人: | 徐國文 |
| 地址: | 300384 天津市西青區華*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 系統 網絡 性能 分析 故障診斷 方法 | ||
技術領域
本發明涉及一種診斷方法,具體涉及一種分布式系統網絡性能分析及故障診斷方法。
背景技術
分布式系統指的是建立在網絡系統之上,將各個不同的節點通過節點之間的消息通信,協作完成一種或多種服務。由于分布式系統將服務分布到不同的節點,因此分布式系統具有良好的可擴展性,故障隔離,以及應用透明性。在實際的IT系統中得到了廣泛的應用,典型的服務有分布式文件系統,分布式數據庫,網站服務等。
由于分布式系統依賴網絡設備將各個服務節點互聯在一起,網絡設備的性能和穩定性對分布式系統的性能和穩定性起到了決定性的作用。隨著分布式系統規模的擴大,使得網絡的規模,設備類型,設備的連接方式變得極為復雜,如果某些設備出現故障,會直接影響到上層服務的質量。如何通過工具對網絡系統進行高效的故障診斷和性能分析,具有非常重要的意義。
目前的故障診斷機制來說,分為硬件故障診斷機制和軟件測試工具。
硬件故障診斷機制包括網絡設備上提供的性能計數器,提供各種性能和故障計數器,包括收發消息,丟棄消息,硬件錯誤消息等計數,通過這些計數能夠檢測到硬件設備是否存在異常。
軟件測試工具通過主動地進行點到點的消息收發,計算出點到點的網絡延遲和帶寬,進而判斷網絡是否存在故障。典型的測試工具有Iperf,netperf等。
現有的分布式系統網絡性能分析和故障診斷存在如下幾個方面的問題:
●故障判斷源簡單:硬件計數器只能偵測硬件本身的故障源,無法對于網絡鏈路的狀態,軟件協議層錯誤等故障進行判斷;軟件點到點測試工具只能測試兩個點之間的網絡性能,無法通過數據快速判斷網絡故障。
●管理員手工參與:需要管理員手工測試各種可能情況,并根據結果分析可能存在何種故障進行處理。隨著分布式系統規模擴大導致的網絡規模龐大,需要故障診斷工具簡化并快速的提供整體網絡的可能故障點,便于管理員進行故障的判斷和排除。
發明內容
為了克服上述現有技術的不足,本發明提供一種分布式系統網絡性能分析及故障診斷方法,考慮到了參與通信路徑上的所有網絡設備和鏈路的狀態,節點之間的通信性能,根據網絡拓撲信息,能夠分析并確定故障點的具體位置,提高了故障檢測的精度,降低了故障檢測的開銷。
同時對于分布式系統的性能分析,本方法能夠提供分布式系統節點間的實際性能,而不是網絡系統的理論性能,能夠提高性能預估的精度。
為了實現上述發明目的,本發明采取如下技術方案:
本發明提供一種分布式系統網絡性能分析及故障診斷方法,所述方法包括以下步驟:
步驟1:在被監控的分布式系統上部署監控服務;
步驟2:根據分布式系統的特征,運行管理服務;
步驟3:進行網絡拓撲發現;
步驟4:確定被監控節點的監控節點集合;
步驟5:管理服務收集節點狀態信息并進行分析;
步驟6:網絡性能探測;
步驟7:網絡狀態分析,確定可能存在的故障。
所述步驟1中,根據被監控的分布式系統規模,確定被監控節點,并在被監控節點上部署監控服務;所述被監控節點定義為分布式系統中需要被監控的服務所在節點,包括服務器和網絡設備等。
監控服務負責監控所在節點的網絡狀態,包括網卡的硬件狀態和操作系統提供的性能計數信息等;
監控服務接收管理服務的命令并執行,命令包括網絡探測命令和網絡性能測試命令;
監控服務根據管理服務發出的網絡探測命令,進行網絡探測;并根據管理服務發出的網絡性能測試命令,進行節點之間的網絡性能測試。
所述步驟2中,在管理節點上運行管理服務,管理服務根據分布式系統特征,選擇被監控節點,啟動監控服務,并與被監控節點上的監控服務相連接。
管理服務與監控服務的連接方式根據分布式系統的規模而定:
對于小規模分布式系統,管理服務直接與所有的監控服務連接;
對于大規模分布式系統,管理服務采用樹形層級方式連接,即上層管理服務管理不同分區的管理服務,單個分區管理服務只管理設定數量的節點和網絡。
所述步驟3中,管理服務對分布式系統的所有網絡設備發起網絡拓撲發現,以確定網絡拓撲信息,并將網絡該拓撲信息存儲到管理服務中;如果分布式系統所處的網絡設備不支持拓撲發現,則根據管理員提供的拓撲配置構建網絡拓撲信息。
所述步驟4中,被監控節點支持以下三種監控方式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曙光信息產業股份有限公司,未經曙光信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410508685.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多點和有根多點保護切換
- 下一篇:一種防止負載均衡鏈路連續震蕩的方法及裝置





