[發明專利]一種基于故障率預測的海量計算節點通信樹的構建方法有效
| 申請號: | 202010953328.0 | 申請日: | 2020-09-11 |
| 公開(公告)號: | CN112039747B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 盧凱;戴屹欽;王睿伯;董勇;謝旻;周恩強;遲萬慶;張偉;張文喆;鄔會軍;李佳鑫 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | H04L12/44 | 分類號: | H04L12/44;H04L12/24 |
| 代理公司: | 湖南兆弘專利事務所(普通合伙) 43008 | 代理人: | 譚武藝 |
| 地址: | 410073 湖南*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 故障率 預測 海量 計算 節點 通信 構建 方法 | ||
本發明公開了一種基于故障率預測的海量計算節點通信樹的構建方法,本發明包括獲取目標節點鏈表中每個目標節點的故障預測概率;確定通信樹中的關鍵節點,并確定目標節點鏈表中的關鍵位置;根據目標節點故障概率和目標節點鏈表中的關鍵位置對目標節點鏈表的順序進行調整,從而使得故障概率大的節點盡量不出現目標節點鏈表的關鍵位置,從而使得故障概率大的節點盡量下沉到通信樹的底層,調整后得到新的目標節點鏈表;使用新的目標節點鏈表構建通信樹。本發明采用預測節點故障概率并根據預測故障率調整目標節點鏈表中的節點順序最終使得故障節點盡量下移到通信樹的底層,能夠降低狀態反饋的延時,減少節點故障模式對總超時時間的影響。
技術領域
本發明涉及高性能計算機中的海量計算節點資源管理技術,具體涉及一種基于故障率預測的海量計算節點通信樹的構建方法。
背景技術
當前,針對高性能計算機中的海量計算節點資源采用的是單一控制節點對大量計算節點進行控制的管理模式。在系統運行過程中,控制節點需要監控并記錄每一個計算節點的實時狀態以便于進行任務分配等工作。實現該功能的主要方式是控制節點不斷產生向計算節點發送消息的請求(本專利中稱之為消息發送請求),根據計算節點的返回消息得到計算節點的當前狀態并修改控制節點上用于管理計算節點的數據結構。這些消息發送請求的共同特點是發送的消息內容相同,但目標節點的數量往往較大,甚至某些消息發送請求的目標節點會包含所有的計算節點。在處理消息發送請求時,控制節點會采用星形結構或樹形結構進行消息的發送。所謂星形結構,是指控制節點直接向所有目標計算節點發送消息,而樹形結構則需要由控制節點和計算節點共同構建一個通信樹來完成消息的發送和接收過程。通常情況下,樹形的消息發送模式相比星形的發送模式能給控制節點帶來更小的負載。
樹形結構的發送方式依賴于通信樹的構建。如圖1所示,控制節點將目標節點進行分組,組數即為通信樹寬(圖1中通信樹寬為3)??刂乒濣c只給每組節點中的第一個目標節點進行通信,每組第一個目標節點再按樹形結構繼續向該組內的其他節點進行消息發送,由此構成了一棵通信樹。考慮單一控制節點通過生成并處理消息發送請求從而對計算節點狀態進行監控和管理的這一部分功能,可以發現,在面對具有海量計算節點資源的高性能計算機時,該過程存在著以下兩方面的問題。
一、節點規模增大時,狀態反饋的實時性下降,控制節點掌握的節點狀態與實際狀態延時增加。
在樹形的消息發送過程中,一旦socket連接出現故障或者目標節點本身出現故障,消息的發送方就可能始終無法接收到響應,由于發送方不可能永遠等待接收方的響應,所以需要設置一個等待時間的上限,一旦在該設定的時間內沒有接收到目標節點的響應,就可以判斷已經出現了故障,本專利中稱該上限為超時時間。在本申請中,在發送消息過程中無論是出現socket連接故障或者出現目標節點本身的故障,都將接收方稱之為故障節點,所以超時時間也可以看作是故障節點帶來的額外的通信時間開銷。故障可以分為兩類:
連接故障。當目標節點出現連接故障時,發送節點無法與接收節點建立socket連接。連接超時時間受操作系統內核設置影響,大約為3-10秒,且與故障節點在通信樹中所處位置無關。
接收故障。當目標節點出現接收故障時,發送節點雖然可以與接收節點成功建立socket連接,但接收節點無法返回消息,此時發送節點仍會等待接收節點的返回消息直到到達超時時間后發送節點才能判斷該接收節點為故障狀態。這一超時時間大約為10-30秒,且與接收節點在通信樹中所處的位置有關。故障節點所處的位置越靠近根節點,發送節點需要等待的超時時間就越大,這是因為確定一個節點超時時間還要考慮該節點向下轉發消息的時間開銷,避免出現以下情況:該節點本身正常,但由于下層節點故障過多導致時間開銷增大使得上層節點誤以為本節點故障。目前的代碼實現中,假設某節點所在分組內除去該節點后的總節點數為m(該節點接下來需要轉發的下層目標節點數),樹寬為n,系統設定的普通超時時間為MESSEGE_TIMEOUT,那么接收超時時間為:(2*[(m+1)/n]+1)*MESSEGE_TIMEOUT。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010953328.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于重癥監護室患者用轉運床墊
- 下一篇:一種建筑用水上應急施工橋設備





