[發(fā)明專利]一種基于資源優(yōu)化策略的基層故障診斷方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202110772240.3 | 申請(qǐng)日: | 2021-07-08 |
| 公開(公告)號(hào): | CN113485861A | 公開(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計(jì))人: | 建瀾濤;黃益明;張禎;陳恒;鄭生濱;朱可夫 | 申請(qǐng)(專利權(quán))人: | 無錫江南計(jì)算技術(shù)研究所 |
| 主分類號(hào): | G06F11/07 | 分類號(hào): | G06F11/07;G06F11/30 |
| 代理公司: | 浙江千克知識(shí)產(chǎn)權(quán)代理有限公司 33246 | 代理人: | 裴金華 |
| 地址: | 214100 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 資源 優(yōu)化 策略 基層 故障診斷 方法 裝置 | ||
本發(fā)明公開了一種基于資源優(yōu)化策略的基層故障診斷方法及裝置,該方法包括構(gòu)建整機(jī)故障診斷樹,整機(jī)故障診斷樹包括由系統(tǒng)基層至頂層分別設(shè)置的第一級(jí)管理單元、第二級(jí)管理單元、第三級(jí)管理單元;當(dāng)各第一級(jí)管理單元采集到總錯(cuò)監(jiān)控?cái)?shù)據(jù)時(shí),對(duì)總錯(cuò)監(jiān)控?cái)?shù)據(jù)進(jìn)行故障解析,確定故障數(shù)據(jù)信息;生成各故障數(shù)據(jù)信息對(duì)應(yīng)的各故障診斷結(jié)果,并將各故障診斷結(jié)果發(fā)送至第二級(jí)管理單元;第二級(jí)管理單元對(duì)接收到的各故障診斷結(jié)果進(jìn)行過濾后,將過濾診斷結(jié)果發(fā)送至第三級(jí)管理單元;第三級(jí)管理單元基于接收到的過濾診斷結(jié)果生成并展示故障報(bào)文。本發(fā)明實(shí)現(xiàn)了采用分布式故障處理方式代替原有集中式故障處理方式,以分級(jí)并發(fā)方式實(shí)現(xiàn)了診斷數(shù)據(jù)的高效匯集。
技術(shù)領(lǐng)域
本申請(qǐng)涉及高性能計(jì)算機(jī)故障診斷技術(shù)領(lǐng)域,具體而言,涉及一種基于資源優(yōu)化策略的基層故障診斷方法及裝置。
背景技術(shù)
隨著高性能計(jì)算邁入E級(jí)時(shí)代,系統(tǒng)性能大幅提升的同時(shí),其規(guī)模也在迅速增長,各種關(guān)鍵組件數(shù)量十分龐大,平均無故障時(shí)間將縮短至小時(shí)計(jì),對(duì)整機(jī)的可靠性以及可用性提出了非常嚴(yán)苛的要求,如何在故障出現(xiàn)的第一時(shí)刻發(fā)現(xiàn)故障并有效排除故障對(duì)高性能計(jì)算機(jī)的可靠穩(wěn)定運(yùn)行起著至關(guān)重要的作用。
目前對(duì)高性能計(jì)算機(jī)的故障診斷主流方式為基于海量監(jiān)測(cè)數(shù)據(jù)發(fā)現(xiàn)故障點(diǎn),進(jìn)而在故障點(diǎn)上運(yùn)行故障診斷流程。其存在的缺陷是當(dāng)故障點(diǎn)數(shù)量急劇增多時(shí),僅依靠總控制臺(tái)進(jìn)行并發(fā)診斷,大量的并發(fā)數(shù)據(jù)將對(duì)管理網(wǎng)絡(luò)造成巨大的負(fù)擔(dān),此外還受限于總控制臺(tái)的并發(fā)能力及對(duì)海量數(shù)據(jù)的并行處理能力,大量的底層硬件并發(fā)訪問也將對(duì)維護(hù)接口造成巨大壓力,目前的處理方式其效率已經(jīng)不能滿足高性能計(jì)算機(jī)的實(shí)時(shí)高效的故障診斷需求。
發(fā)明內(nèi)容
為了解決上述問題,本申請(qǐng)實(shí)施例提供了一種基于資源優(yōu)化策略的基層故障診斷方法及裝置。
第一方面,本申請(qǐng)實(shí)施例提供了一種基于資源優(yōu)化策略的基層故障診斷方法,所述方法包括:
構(gòu)建整機(jī)故障診斷樹,所述整機(jī)故障診斷樹包括由系統(tǒng)基層至頂層分別設(shè)置的第一級(jí)管理單元、第二級(jí)管理單元、第三級(jí)管理單元;
當(dāng)各所述第一級(jí)管理單元采集到總錯(cuò)監(jiān)控?cái)?shù)據(jù)時(shí),對(duì)所述總錯(cuò)監(jiān)控?cái)?shù)據(jù)進(jìn)行故障解析,確定故障數(shù)據(jù)信息;
生成各所述故障數(shù)據(jù)信息對(duì)應(yīng)的各故障診斷結(jié)果,并將各所述故障診斷結(jié)果發(fā)送至所述第二級(jí)管理單元;
所述第二級(jí)管理單元對(duì)接收到的各所述故障診斷結(jié)果進(jìn)行過濾后,將過濾診斷結(jié)果發(fā)送至第三級(jí)管理單元;
所述第三級(jí)管理單元基于接收到的所述過濾診斷結(jié)果生成并展示故障報(bào)文。
優(yōu)選的,所述第一級(jí)管理單元為分布式管理單元,所述第二級(jí)管理單位為區(qū)域集中式管理單元,所述第三級(jí)管理單元為總控管理單元。
優(yōu)選的,所述第一級(jí)管理單元包括數(shù)據(jù)解析模塊和故障樹診斷模塊;
所述當(dāng)各所述第一級(jí)管理單元采集到總錯(cuò)監(jiān)控?cái)?shù)據(jù)時(shí),對(duì)所述總錯(cuò)監(jiān)控?cái)?shù)據(jù)進(jìn)行故障解析,確定故障數(shù)據(jù)信息,包括:
當(dāng)各所述數(shù)據(jù)解析模塊采集到總錯(cuò)監(jiān)控?cái)?shù)據(jù)時(shí),對(duì)所述總錯(cuò)監(jiān)控?cái)?shù)據(jù)進(jìn)行故障解析,得到異常監(jiān)控?cái)?shù)據(jù);
所述數(shù)據(jù)解析模塊基于預(yù)設(shè)的信息交換協(xié)議將所述異常監(jiān)控?cái)?shù)據(jù)發(fā)送至所述故障樹診斷模塊;
所述故障樹診斷模塊接收到所述異常監(jiān)控?cái)?shù)據(jù)后,對(duì)所述異常監(jiān)控?cái)?shù)據(jù)進(jìn)行故障診斷,確定故障數(shù)據(jù)信息。
優(yōu)選的,所述對(duì)所述總錯(cuò)監(jiān)控?cái)?shù)據(jù)進(jìn)行故障解析,得到異常監(jiān)控?cái)?shù)據(jù),包括:
實(shí)時(shí)解析各所述總錯(cuò)監(jiān)控?cái)?shù)據(jù),將出現(xiàn)錯(cuò)誤的總錯(cuò)監(jiān)控?cái)?shù)據(jù)確定為異常監(jiān)控?cái)?shù)據(jù);
查詢所述異常監(jiān)控?cái)?shù)據(jù)對(duì)應(yīng)的芯片中存在錯(cuò)誤的異常芯片;
當(dāng)存在所述異常芯片時(shí),查詢所述異常芯片中存在寄存器錯(cuò)誤的異常寄存器;
當(dāng)存在所述異常寄存器時(shí),查詢所述異常寄存器中存在位碼錯(cuò)誤的異常位置。
優(yōu)選的,所述基于預(yù)設(shè)的信息交換協(xié)議將所述異常監(jiān)控?cái)?shù)據(jù)發(fā)送至所述故障樹診斷模塊,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于無錫江南計(jì)算技術(shù)研究所,未經(jīng)無錫江南計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110772240.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè);錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測(cè)試或調(diào)試防止錯(cuò)誤
- 一種計(jì)算機(jī)網(wǎng)絡(luò)策略管理系統(tǒng)及策略管理方法
- 應(yīng)用于合法監(jiān)聽系統(tǒng)的網(wǎng)絡(luò)策略架構(gòu)及其策略處理方法
- 分發(fā)策略的方法、系統(tǒng)和策略分發(fā)實(shí)體
- 策略控制方法、策略規(guī)則決策設(shè)備和策略控制設(shè)備
- 用于控制QoS策略沖突的方法、設(shè)備和系統(tǒng)
- 策略融合的方法、UE及服務(wù)器
- 策略調(diào)整觸發(fā)、策略調(diào)整方法及裝置、策略調(diào)整系統(tǒng)
- 設(shè)備策略管理器
- 策略組中的策略評(píng)估、策略選擇方法及裝置
- 策略集群分發(fā)匹配方法、系統(tǒng)及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





