[發(fā)明專利]一種并行作業(yè)運(yùn)行故障定位方法有效
| 申請?zhí)枺?/td> | 201810356611.8 | 申請日: | 2018-04-19 |
| 公開(公告)號: | CN108632086B | 公開(公告)日: | 2020-12-11 |
| 發(fā)明(設(shè)計(jì))人: | 朱光慧;曾云輝;劉曉旭 | 申請(專利權(quán))人: | 山東省計(jì)算中心(國家超級計(jì)算濟(jì)南中心) |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26;G06F9/50 |
| 代理公司: | 濟(jì)南金迪知識產(chǎn)權(quán)代理有限公司 37219 | 代理人: | 葉亞林 |
| 地址: | 250013 山東省濟(jì)南市高*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 并行 作業(yè) 運(yùn)行 故障 定位 方法 | ||
1.一種并行作業(yè)運(yùn)行故障定位方法,其特征在于,包括步驟如下:
1)獲取系統(tǒng)信息
所述系統(tǒng)信息包括作業(yè)狀態(tài)、計(jì)算節(jié)點(diǎn)狀態(tài)、網(wǎng)絡(luò)系統(tǒng)狀態(tài)、文件系統(tǒng)狀態(tài)和作業(yè)與資源管理系統(tǒng)狀態(tài);
作業(yè)狀態(tài)是高性能計(jì)算系統(tǒng)中用戶提交的作業(yè)程序的運(yùn)行狀態(tài);作業(yè)狀態(tài)的含義如下:
1.1)PEND:作業(yè)正在調(diào)度;正在隊(duì)列中進(jìn)行調(diào)度并等待分派,尚未選擇和分配到系統(tǒng)資源,作業(yè)還未開始執(zhí)行,未占用系統(tǒng)資源;
1.2)STARTING:作業(yè)正在啟動;是作業(yè)分配到系統(tǒng)資源后到作業(yè)啟動完成并開始運(yùn)行之間的過渡狀態(tài);
1.3)RUN:作業(yè)正在運(yùn)行;作業(yè)已經(jīng)完成調(diào)度和分派,作業(yè)占用系統(tǒng)資源;
1.4)DONE:作業(yè)正常完成并退出;
1.5)EXIT:作業(yè)異常完成并退出;
1.6)HANG:作業(yè)掛死;仍顯示RUN,但作業(yè)數(shù)據(jù)已停止輸出,且沒有退出;
計(jì)算節(jié)點(diǎn)狀態(tài)是高性能計(jì)算系統(tǒng)中計(jì)算節(jié)點(diǎn)的狀態(tài);
網(wǎng)絡(luò)系統(tǒng)狀態(tài)是高性能計(jì)算系統(tǒng)中計(jì)算節(jié)點(diǎn)的網(wǎng)絡(luò)接口狀態(tài);
文件系統(tǒng)狀態(tài)是高性能計(jì)算系統(tǒng)中全局文件系統(tǒng)的狀態(tài);
作業(yè)與資源管理系統(tǒng)狀態(tài)是高性能計(jì)算系統(tǒng)中的作業(yè)管理情況和資源管理情況;相應(yīng)的進(jìn)程包括,資源管理總控、作業(yè)管理總控和作業(yè)調(diào)度器;
2)對事件進(jìn)行分類和嚴(yán)重等級分級
事件分類包括:
A類事件:運(yùn)算系統(tǒng)故障;運(yùn)算系統(tǒng)故障包括,電源故障、運(yùn)算節(jié)點(diǎn)插件故障、CPU故障、內(nèi)存故障、CPU利用率異常、內(nèi)存利用率異常、運(yùn)算性能異常、訪存性能異常;
B類事件:網(wǎng)絡(luò)系統(tǒng)故障;網(wǎng)絡(luò)系統(tǒng)故障包括,IB子網(wǎng)管理服務(wù)故障、IB子網(wǎng)管理節(jié)點(diǎn)故障、IB交換機(jī)故障、計(jì)算交換模塊故障、IB網(wǎng)絡(luò)端口故障、IB光纖故障、IB帶寬異常、IB延遲異常;
C類事件:文件系統(tǒng)故障;文件系統(tǒng)故障包括,文件系統(tǒng)服務(wù)故障、元數(shù)據(jù)服務(wù)節(jié)點(diǎn)故障、文件系統(tǒng)服務(wù)節(jié)點(diǎn)故障、存儲管理節(jié)點(diǎn)故障、存儲節(jié)點(diǎn)故障、磁盤故障、磁盤超限、IO帶寬異常;
D類事件:作業(yè)與資源管理系統(tǒng)故障;作業(yè)與資源管理系統(tǒng)故障包括,資源管理總控故障、作業(yè)管理總控故障、作業(yè)調(diào)度器故障、控制臺故障;
表1 事件的影響度
其中,表1中的關(guān)鍵業(yè)務(wù)服務(wù)為系統(tǒng)功能,具體包括,文件系統(tǒng)服務(wù)、IB子網(wǎng)管理服務(wù)、資源管理總控服務(wù)、作業(yè)管理總控服務(wù)和作業(yè)調(diào)度服務(wù);
表2 事件的緊急度
表3 事件嚴(yán)重等級
嚴(yán)重等級的分類根據(jù)事件的“影響度”和“緊急度”組合決定,見表3;基于高性能計(jì)算系統(tǒng)的邏輯組件,按照表3的計(jì)算方法,并行作業(yè)運(yùn)行故障分類分級表如下:
表4 事件分類分級說明表
由表4可知,事件嚴(yán)重等級為1級、和2級的故障為主要故障,事件嚴(yán)重等級為3級的故障為局部故障,事件嚴(yán)重等級為4級的故障為系統(tǒng)性能故障;
3)故障定位
故障定位分析方法如下:
假設(shè)整個(gè)系統(tǒng)計(jì)算節(jié)點(diǎn)數(shù)為n,文件系統(tǒng)服務(wù)節(jié)點(diǎn)數(shù)為m,運(yùn)算節(jié)點(diǎn)插件數(shù)為l,計(jì)算交換模塊數(shù)為k,則每n/m個(gè)計(jì)算節(jié)點(diǎn)對應(yīng)一個(gè)文件系統(tǒng)服務(wù)節(jié)點(diǎn),每個(gè)運(yùn)算節(jié)點(diǎn)插件對應(yīng)n/l個(gè)CPU;
A、如果作業(yè)提交不上,則根據(jù)作業(yè)提交失敗返回的報(bào)錯(cuò)信息,通過關(guān)聯(lián)知識庫,給出故障原因和處理建議;判定為作業(yè)與資源管理系統(tǒng)中的作業(yè)管理總控故障或資源管理總控故障,事件嚴(yán)重等級為1;關(guān)聯(lián)知識庫,即根據(jù)作業(yè)與資源管理系統(tǒng)常見問題知識庫,將報(bào)錯(cuò)信息和知識庫中的記錄進(jìn)行關(guān)聯(lián),給出故障原因和處理建議;關(guān)聯(lián)知識庫由軟件開發(fā)人員提供,由運(yùn)維人員補(bǔ)充和維護(hù);
B、如果作業(yè)提交后一直處于PEND狀態(tài),則作業(yè)調(diào)度失敗,判定作業(yè)與資源管理系統(tǒng)中的作業(yè)調(diào)度器故障,事件嚴(yán)重等級為1;進(jìn)一步檢查作業(yè)調(diào)度器的狀態(tài);
C、如果作業(yè)在啟動運(yùn)行時(shí)出現(xiàn)異常,則作業(yè)資源分配失敗,初步判定作業(yè)與資源管理系統(tǒng)中的資源管理總控故障,事件嚴(yán)重等級為1;進(jìn)一步檢查資源管理總控的狀態(tài);
如果資源管理總控狀態(tài)正常,則判定為計(jì)算資源臨時(shí)出現(xiàn)故障,判定為運(yùn)算系統(tǒng)故障或網(wǎng)絡(luò)系統(tǒng)故障或文件系統(tǒng)故障;
D、作業(yè)完成調(diào)度和資源分配后,作業(yè)占用的系統(tǒng)資源正在運(yùn)行中;如果作業(yè)運(yùn)行一段時(shí)間后異常退出,則計(jì)算資源出現(xiàn)故障,判定為運(yùn)算系統(tǒng)故障或網(wǎng)絡(luò)系統(tǒng)故障或文件系統(tǒng)故障;
針對上述計(jì)算資源故障,如果出現(xiàn)故障的節(jié)點(diǎn)數(shù)如果出現(xiàn)故障的節(jié)點(diǎn)數(shù)大于n/l時(shí),則首先根據(jù)問題規(guī)模及其關(guān)聯(lián)關(guān)系判斷故障的類型和級別,篩選出主要故障;具體如下:
D1)如果作業(yè)所有節(jié)點(diǎn)的文件系統(tǒng)狀態(tài)為unmounted未掛載,且計(jì)算節(jié)點(diǎn)狀態(tài)為softft節(jié)點(diǎn)已經(jīng)引導(dǎo)成功但HCA卡或文件系統(tǒng)不可用、網(wǎng)絡(luò)系統(tǒng)狀態(tài)為ok正常,則判定為文件系統(tǒng)服務(wù)故障,事件嚴(yán)重等級為1;進(jìn)一步檢查文件系統(tǒng)服務(wù)狀態(tài)或元數(shù)據(jù)服務(wù)節(jié)點(diǎn)狀態(tài);
D2)如果作業(yè)所有節(jié)點(diǎn)的網(wǎng)絡(luò)狀態(tài)為init初始化,且計(jì)算節(jié)點(diǎn)狀態(tài)為softft節(jié)點(diǎn)已經(jīng)引導(dǎo)成功但HCA卡或文件系統(tǒng)不可用、文件系統(tǒng)狀態(tài)為unmounted未掛載,則初步判定為網(wǎng)絡(luò)系統(tǒng)中的IB子網(wǎng)管理服務(wù)故障,事件嚴(yán)重等級為1;進(jìn)一步檢查IB子網(wǎng)管理服務(wù)狀態(tài)或IB子網(wǎng)管理節(jié)點(diǎn)狀態(tài);
D3)如果出現(xiàn)連續(xù)n/m的整數(shù)倍個(gè)計(jì)算節(jié)點(diǎn)的文件系統(tǒng)狀態(tài)為unmounted未掛載,且計(jì)算節(jié)點(diǎn)狀態(tài)為softft節(jié)點(diǎn)已經(jīng)引導(dǎo)成功但HCA卡或文件系統(tǒng)不可用、網(wǎng)絡(luò)狀態(tài)為ok正常,且計(jì)算節(jié)點(diǎn)的物理結(jié)構(gòu)號對應(yīng)1個(gè)文件系統(tǒng)服務(wù)節(jié)點(diǎn),則判定為文件系統(tǒng)中的文件系統(tǒng)服務(wù)節(jié)點(diǎn)故障,事件嚴(yán)重等級為2;進(jìn)一步檢查對應(yīng)的文件系統(tǒng)服務(wù)節(jié)點(diǎn)狀態(tài);
D4)如果出現(xiàn)連續(xù)n/k的整數(shù)倍個(gè)計(jì)算節(jié)點(diǎn)的網(wǎng)絡(luò)狀態(tài)為down關(guān)閉,且計(jì)算節(jié)點(diǎn)狀態(tài)為softft節(jié)點(diǎn)已經(jīng)引導(dǎo)成功但HCA卡或文件系統(tǒng)不可用、文件系統(tǒng)狀態(tài)為unmounted未掛載,且計(jì)算節(jié)點(diǎn)的物理結(jié)構(gòu)號對應(yīng)1個(gè)計(jì)算交換模塊,則判定為網(wǎng)絡(luò)系統(tǒng)中的計(jì)算交換模塊故障,事件嚴(yán)重等級為2;進(jìn)一步檢查對應(yīng)的計(jì)算交換模塊狀態(tài);
D5)如果出現(xiàn)連續(xù)n/l的整數(shù)倍個(gè)計(jì)算節(jié)點(diǎn)狀態(tài)為down關(guān)閉,且網(wǎng)絡(luò)系統(tǒng)狀態(tài)和文件系統(tǒng)狀態(tài)均無結(jié)果顯示,且計(jì)算節(jié)點(diǎn)的物理結(jié)構(gòu)號對應(yīng)1個(gè)運(yùn)算節(jié)點(diǎn)插件,則判定為運(yùn)算系統(tǒng)中的運(yùn)算節(jié)點(diǎn)插件故障,嚴(yán)重等級為2;進(jìn)一步檢查對應(yīng)運(yùn)算節(jié)點(diǎn)插件的狀態(tài)或電源狀態(tài);
E、如果作業(yè)狀態(tài)為HANG,則判定為文件系統(tǒng)故障或網(wǎng)絡(luò)系統(tǒng)故障或計(jì)算資源性能異常;首先,通過步驟C的方法進(jìn)行主要故障和局部故障定位;然后排查計(jì)算資源性能異常問題;最后,通過執(zhí)行終止作業(yè)命令,再重新提交作業(yè)測試用例進(jìn)行測試;如果作業(yè)正常完成,則問題解決,故障定位結(jié)束。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東省計(jì)算中心(國家超級計(jì)算濟(jì)南中心),未經(jīng)山東省計(jì)算中心(國家超級計(jì)算濟(jì)南中心)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810356611.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 簡單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線與并行總線的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)
- 運(yùn)行控制裝置及運(yùn)行控制方法
- 運(yùn)行支援裝置、運(yùn)行支援系統(tǒng)以及運(yùn)行支援程序
- 列車運(yùn)行處理方法、運(yùn)行處理裝置和運(yùn)行調(diào)度系統(tǒng)
- 運(yùn)行監(jiān)測系統(tǒng)及運(yùn)行監(jiān)測方法
- 運(yùn)行控制裝置及運(yùn)行控制方法
- 運(yùn)行曲線制作裝置、運(yùn)行輔助裝置以及運(yùn)行控制裝置
- 運(yùn)行支持裝置、車輛、運(yùn)行管理裝置和運(yùn)行支持方法
- 運(yùn)行計(jì)劃方法、運(yùn)行控制裝置和運(yùn)行計(jì)劃系統(tǒng)
- 運(yùn)行控制裝置、運(yùn)行管理系統(tǒng)、運(yùn)行控制方法以及車輛
- 自動建模運(yùn)行系統(tǒng)及運(yùn)行方法
- 故障檢測裝置、故障檢測方法以及故障檢測程序
- 故障預(yù)測裝置、故障預(yù)測方法及故障預(yù)測程序
- 故障分析裝置、故障分析系統(tǒng)及故障分析方法
- 故障檢測方法、故障檢測裝置和故障檢測系統(tǒng)
- 故障檢測裝置、故障檢測方法及計(jì)算機(jī)可讀取存儲介質(zhì)
- 故障檢測裝置、故障檢測方法和計(jì)算機(jī)能讀取的存儲介質(zhì)
- 故障檢測裝置、故障檢測系統(tǒng)、故障檢測方法
- 故障處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲介質(zhì)
- 故障排除方法、故障排除裝置及故障排除系統(tǒng)
- 故障檢測電路、故障檢測系統(tǒng)及故障檢測方法





