[發明專利]一種并行作業運行故障定位方法有效
| 申請號: | 201810356611.8 | 申請日: | 2018-04-19 |
| 公開(公告)號: | CN108632086B | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 朱光慧;曾云輝;劉曉旭 | 申請(專利權)人: | 山東省計算中心(國家超級計算濟南中心) |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26;G06F9/50 |
| 代理公司: | 濟南金迪知識產權代理有限公司 37219 | 代理人: | 葉亞林 |
| 地址: | 250013 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 并行 作業 運行 故障 定位 方法 | ||
本發明涉及一種并行作業運行故障定位方法。該方法針對并行作業運行過程中出現的故障,首先列舉了導致故障發生的所有原因,并對其進行分類、分級;然后,通過問題規模及其關聯關系,建立故障定位分析方法,由上而下、逐層排查故障原因,縮小了故障的處理范圍,有效解決了高性能計算系統中故障定位難度高且準確性差的問題。
技術領域
本發明涉及一種并行作業運行故障定位方法,屬于高性能計算的技術領域。
背景技術
隨著求解問題規模越來越大,大規模并行計算任務也越來越多。由于高性能計算系統龐大且結構復雜,參與大規模計算的節點數巨大,在作業運行過程中經常會出現各種軟硬件資源故障,進而導致作業提交不上、作業提交上但一直處于PEND狀態、作業提交運行后非正常結束、作業掛死等問題。目前,利用已有的系統資源監測管理工具,可以在一定程度上獲取作業運行狀態,包括作業狀態、作業運行所依賴的系統資源狀態和故障信息。但是,一方面,由于導致故障發生的原因復雜多樣,且關聯性強,僅通過獲取的故障信息無法清晰地定位故障根源;另一方面,由于故障處理策略不合理,導致故障響應時間過長、無法快速恢復。隨著E級計算機的建設,HPC系統日益復雜,為故障的分析帶來了很大的挑戰。因此,如何充分利用獲取到的故障信息進行快速的故障定位是亟需解決的關鍵問題。
為了提高并行作業運行的可靠性和異常因素影響分析能力,現有技術中的并行作業運行狀態分析方法,可以獲取作業運行時的特征(主要包括基于定性信息的狀態特征參數和基于性能參數的量化特征參數)和故障信息,及時發現故障;但是現有技術中的方法并沒有給出具體的故障定位方法。
例如,高劍,于康等人在文獻“面向高性能計算的分布式故障定位框架.計算機應用,2018,38(1),2018,pp.44-49”中提出了一種基于消息傳遞的故障檢測與分析方法,該方法沒有對故障進行分類、分級,故障定位的時效性沒有保障。
發明內容
針對現有技術的不足,本發明提供一種并行作業運行故障定位方法。本發明默認作業程序已由用戶調試完成,不考慮作業程序本身的故障。
本發明的技術方案為:
一種并行作業運行故障定位方法,包括步驟如下:
1)獲取系統信息
所述系統信息包括作業狀態、計算節點狀態、網絡系統狀態、文件系統狀態和作業與資源管理系統狀態;計算節點狀態、網絡系統狀態、文件系統狀態和作業與資源管理系統狀態為作業運行所依賴的系統資源狀態;所述系統信息通過已有的系統監測管理工具獲取;
從用戶將作業提交到系統中,到作業的完成并退出,每個階段都有對應的作業狀態。
作業狀態是高性能計算系統中用戶提交的作業程序的運行狀態;作業狀態的含義如下:
1.1)PEND:作業正在調度;正在隊列中進行調度并等待分派,尚未選擇和分配到系統資源,作業還未開始執行,未占用系統資源;
1.2)STARTING:作業正在啟動;是作業分配到系統資源后到作業啟動完成并開始運行之間的過渡狀態;
1.3)RUN:作業正在運行;作業已經完成調度和分派,作業占用系統資源;
1.4)DONE:作業正常完成并退出;
1.5)EXIT:作業異常完成并退出;
1.6)HANG:作業掛死;仍顯示RUN,但作業數據已停止輸出,且沒有退出;
計算節點狀態是高性能計算系統中計算節點的狀態;計算節點狀態包括idle節點空閑、busy節點忙、boot節點正在引導、hardft節點發生硬件故障、down節點宕機或監測不通、softft節點已經引導成功但HCA卡或文件系統不可用;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省計算中心(國家超級計算濟南中心),未經山東省計算中心(國家超級計算濟南中心)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810356611.8/2.html,轉載請聲明來源鉆瓜專利網。





