[發(fā)明專利]一種HPC間接網(wǎng)絡(luò)環(huán)境下的鏈路故障檢測方法有效
| 申請?zhí)枺?/td> | 201810256843.6 | 申請日: | 2018-03-27 |
| 公開(公告)號: | CN108650110B | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計)人: | 肖利民;劉成春;楊章;田泓蘊;閆柏成;王志昊 | 申請(專利權(quán))人: | 北京航空航天大學(xué);北京應(yīng)用物理與計算數(shù)學(xué)研究所 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26 |
| 代理公司: | 北京海虹嘉誠知識產(chǎn)權(quán)代理有限公司 11129 | 代理人: | 吳小燦 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 hpc 間接 網(wǎng)絡(luò) 環(huán)境 故障 檢測 方法 | ||
本發(fā)明提供一種HPC間接網(wǎng)絡(luò)環(huán)境下的鏈路故障檢測方法,應(yīng)用于HPC間接網(wǎng)絡(luò)環(huán)境下,基于鏈路延遲信息測量的鏈路故障檢測方法,通過檢測鏈路延遲信息的異常來檢測鏈路故障,能保證在較短時間內(nèi)較精準的確定網(wǎng)絡(luò)中故障鏈路。包括以下步驟:(a)查詢HPC互連網(wǎng)絡(luò)路由信息,獲得結(jié)點間通信路徑的鏈路組成;(b)結(jié)合各通信路徑的鏈路組成,確定需要進行延遲測量的關(guān)鍵通信路徑集合;(c)并行測量關(guān)鍵路徑的延遲信息,并據(jù)此信息求解出全網(wǎng)所有鏈路的延遲信息;(d)根據(jù)鏈路延遲信息判斷鏈路是否發(fā)生故障;求解網(wǎng)絡(luò)中鏈路延遲的期望值,延遲與該值存在較大偏差的鏈路即為故障鏈路。
技術(shù)領(lǐng)域:
本發(fā)明涉及一種鏈路故障檢測方法,更具體的說,尤其涉及一種高性能計算機(High Performance Computer,簡稱HPC)間接網(wǎng)絡(luò)環(huán)境下的鏈路故障檢測方法。
背景技術(shù):
高性能計算是指采取一定的技術(shù)將大量處理單元的計算能力聚合起來以解決復(fù)雜問題的過程。高性能計算已逐漸成為解決國家經(jīng)濟建設(shè)、社會發(fā)展、科技創(chuàng)新、國家安全重大挑戰(zhàn)性問題的重要手段,是世界各國競爭的戰(zhàn)略高地。高性能計算的規(guī)模不斷增大,目前已向E 級規(guī)模邁進,如此體量的計算規(guī)模所對應(yīng)的計算機規(guī)模也是十分龐大的,以Top500排名第一的神威太湖之光高性能計算機為例,它是由40個機柜組成,每個機柜有4個超級節(jié)點,每個超級節(jié)點包括32個節(jié)點卡,每個節(jié)點卡含兩個節(jié)點,每個節(jié)點裝有1個SW26010眾核處理器,即共有40960塊處理器,各處理器之間又通過基于PCI-E3.0的神威網(wǎng)絡(luò)系統(tǒng)進行互連。如此龐大的互連網(wǎng)絡(luò)中常常有一些鏈路發(fā)生故障或者降級的,發(fā)生在這些鏈路上的數(shù)據(jù)傳輸往往效率低下。及時檢測出這一現(xiàn)象能夠幫助計算機運營人員及時解決網(wǎng)絡(luò)問題,為應(yīng)用提供更好的網(wǎng)絡(luò)通信環(huán)境。
目前通信網(wǎng)絡(luò)根據(jù)結(jié)點是否直接相連可分為直接網(wǎng)絡(luò)和間接網(wǎng)絡(luò)。直接網(wǎng)絡(luò)中,各結(jié)點直接相連,不經(jīng)過路由器、交換機等通信設(shè)備,這類網(wǎng)絡(luò)的鏈路故障檢測相對簡單,只需相鄰結(jié)點之間定時發(fā)送檢測數(shù)據(jù),便可獲知每一條鏈路的通信特征信息。而在間接網(wǎng)絡(luò)中,結(jié)點之間通過一個專門用于數(shù)據(jù)傳輸?shù)幕ミB網(wǎng)絡(luò)相連,結(jié)點之間的數(shù)據(jù)通信往往需要經(jīng)過若干個路由設(shè)備和鏈路,由于用戶無法直接訪問到這些路由設(shè)備及傳輸鏈路,如何檢測具體哪些路由設(shè)備之間鏈路出現(xiàn)故障是一個難點。
目前鏈路故障檢測方法主要面向網(wǎng)絡(luò)規(guī)模較小、鏈路分布較為稀疏的TCP/IP互連網(wǎng)絡(luò),往往結(jié)合一些豐富的通信協(xié)議來獲得鏈路通信特征信息,據(jù)此檢測出鏈路故障。但是在HPC 互連網(wǎng)絡(luò)環(huán)境下,出于通信效率考慮,往往沒有充足的通信協(xié)議支撐,使得這些方法往往不能直接用于檢測大規(guī)模高性能計算機互連網(wǎng)絡(luò)中鏈路故障,并且由于HPC互連網(wǎng)絡(luò)規(guī)模往往十分巨大,在該網(wǎng)絡(luò)規(guī)模下已有的鏈路故障檢測方法的時間開銷是十分巨大的。
發(fā)明內(nèi)容:
針對上述方法中所存在的問題,本發(fā)明提供一種HPC間接網(wǎng)絡(luò)環(huán)境下的鏈路故障檢測方法,應(yīng)用于HPC間接網(wǎng)絡(luò)環(huán)境下,基于鏈路延遲信息測量的鏈路故障檢測方法,通過檢測鏈路延遲信息的異常來檢測鏈路故障,能保證在較短時間內(nèi)較精準的確定網(wǎng)絡(luò)中故障鏈路。
本發(fā)明的技術(shù)方案是:
一種HPC間接網(wǎng)絡(luò)環(huán)境下的鏈路故障檢測方法,其特征在于,包括以下步驟:
(a)查詢HPC互連網(wǎng)絡(luò)路由信息,獲得結(jié)點間通信路徑的鏈路組成;HPC間接網(wǎng)絡(luò)中包含n個結(jié)點,結(jié)點集合為N,以及m條鏈路,鏈路集合為M,那么n個結(jié)點之間共有n(n-1)/2條通信路徑,通過查詢網(wǎng)絡(luò)所提供的路由查詢接口,獲得組成任意一條通信路徑Li的鏈路集合Mi,且有
(b)結(jié)合各通信路徑的鏈路組成,確定需要進行延遲測量的關(guān)鍵通信路徑集合;將各通信路徑的鏈路組成轉(zhuǎn)化為矩陣形式,然后對矩陣進行矩陣操作,去掉冗余通信路徑,確定最終需要進行延遲測量的關(guān)鍵通信路徑集合,根據(jù)這些關(guān)鍵路徑的延遲信息求解出網(wǎng)絡(luò)中所有鏈路的延遲信息;
(c)并行測量關(guān)鍵路徑的延遲信息,并據(jù)此信息求解出全網(wǎng)所有鏈路的延遲信息;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué);北京應(yīng)用物理與計算數(shù)學(xué)研究所,未經(jīng)北京航空航天大學(xué);北京應(yīng)用物理與計算數(shù)學(xué)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810256843.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計裝置和環(huán)境估計方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)





