[發(fā)明專利]一種交互型服務(wù)器智能故障處理系統(tǒng)、方法在審
| 申請?zhí)枺?/td> | 202011171776.1 | 申請日: | 2020-10-28 |
| 公開(公告)號: | CN112486743A | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計)人: | 趙子騰 | 申請(專利權(quán))人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06F11/22 | 分類號: | G06F11/22;G06F11/26 |
| 代理公司: | 濟南舜源專利事務(wù)所有限公司 37205 | 代理人: | 李舜江 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 交互 服務(wù)器 智能 故障 處理 系統(tǒng) 方法 | ||
本發(fā)明提供一種交互型服務(wù)器智能故障處理系統(tǒng)、方法,所述系統(tǒng)包括智能故障處理板卡和主板;智能故障處理板卡通過金手指與主板進行通信連接;主板上設(shè)置有BMC,BMC包括ADC監(jiān)控模塊,用于監(jiān)控主板的上電狀態(tài)并將監(jiān)控狀態(tài)傳遞給智能故障處理板卡;主板上電后進行功能測試,并將測試過程出現(xiàn)的告警信息傳遞給智能故障處理板卡;智能故障處理板卡,用于將接收到的上電狀態(tài)信息進行分析處理,進行故障定位并發(fā)送指令到主板進行BMC日志的收集。該系統(tǒng)能夠幫助測試人員將各個bug所屬領(lǐng)域進行分類,解決bug定位不準確造成的人力浪費,效率低下的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及服務(wù)器智能管理技術(shù)領(lǐng)域,具體涉及一種交互型服務(wù)器智能故障處理系統(tǒng)、方法。
背景技術(shù)
隨著服務(wù)器行業(yè)及相關(guān)技術(shù)的不斷發(fā)展,其功能不斷豐富,設(shè)計越來越復(fù)雜,集成度越來越高,這在增加設(shè)計難度的同時也增加了服務(wù)器出現(xiàn)故障的可能性,因此在研發(fā)測試階段,研發(fā)人員debug的任務(wù)越來越重,需要大量的人力來處理故障問題并對設(shè)計進行優(yōu)化,與此相對應(yīng)的,服務(wù)器研發(fā)人員的分工越來越細,包括硬件、軟件、部件、散熱、電源等,針對某一個bug可能需要多個崗位的工程師進行分析才能確定故障來源是哪一部分,在這個過程中浪費了很多不必要的人力。
目前在研發(fā)測試階段我們進行服務(wù)器故障診斷主要有以下三種途徑:(1)當(dāng)BMCweb上出現(xiàn)告警時,如果明確是硬件方面的故障,比如上電異常,鏈路異常等可以針對這些報錯采取相應(yīng)的接觸式測量,獲取信號質(zhì)量及狀態(tài)信息,以具體排查硬件方面的錯誤。(2)當(dāng)BMC web上出現(xiàn)告警且指向CPU、內(nèi)存等部件時,首先保留故障現(xiàn)象抓取相關(guān)故障日志進行分析,然后可以再進行交叉驗證排除固件單體問題。(3)開機過程中出現(xiàn)宕機等故障,首先抓取故障日志,然后排查是否是軟件故障,需要簡單的通過刷新BIOS、BMC等的固件版本來驗證問題是否復(fù)現(xiàn)。上述操作均需測試人員保留故障現(xiàn)場,研發(fā)人員針對異常現(xiàn)象進行初步分析后再利用該系統(tǒng)進行故障處理。
存在的缺點如下:1.故障診斷的操作首先需要保留故障現(xiàn)象,而現(xiàn)在由于測試人員測試日程安排等原因可能無法原樣保留,且有些現(xiàn)象為低概率事件,一旦破壞現(xiàn)象會給后續(xù)debug造成極大困難,很可能出現(xiàn)沒有故障相關(guān)數(shù)據(jù)且無法復(fù)現(xiàn)的情況。2.有些故障分析的操作較為簡單,但需要花費很長時間,比如抓取故障日志,刷新固件版本等等,這些操作都屬于在復(fù)現(xiàn)故障現(xiàn)象后首先需要做的前期分析工作,得到這些前期數(shù)據(jù)后才可以進行進一步的分析。3.在抓取故障日志時還涉及抓取方式,如果使用XDP進行抓取則需要打開機箱插入XDP連接器,這在很多機箱結(jié)構(gòu)中因為連接器上方往往有網(wǎng)卡等部件,空間較小,不容易插入連接器,如果拆下這些部件又會破壞本來的現(xiàn)象;如果使用DCI功能,則需要提前在BIOS中打開DCI功能,而發(fā)生宕機時不能保證該功能是打開的。4.在硬件信號測試時,當(dāng)信號質(zhì)量不理想時,如果信號是有CPLD發(fā)出的,首先會考慮CPLD的相關(guān)GPIO接口的驅(qū)動能力是否過高或過低,如果信號質(zhì)量仍然不好,就需要更改串阻大小。但更新驅(qū)動能力需要CPLD工程師更改CPLD代碼,一個信號的debug可能需要嘗試多種驅(qū)動能力,每次嘗試都需要發(fā)布新的CPLD版本,這就造成了debug效率較低。
發(fā)明內(nèi)容
針對上述存在的故障處理過程造成了debug效率較低的問題,本發(fā)明提供一種交互型服務(wù)器智能故障處理系統(tǒng)、方法。
本發(fā)明的技術(shù)方案是:
第一方面,本發(fā)明技術(shù)方案提供一種交互型服務(wù)器智能故障處理系統(tǒng),包括智能故障處理板卡和主板;智能故障處理板卡通過金手指與主板進行通信連接;
主板上設(shè)置有BMC,BMC包括ADC監(jiān)控模塊,用于監(jiān)控主板的上電狀態(tài)并將監(jiān)控狀態(tài)傳遞給智能故障處理板卡;主板上電后進行功能測試,并將測試過程出現(xiàn)的告警信息傳遞給智能故障處理板卡;
智能故障處理板卡,用于將接收到的上電狀態(tài)信息進行分析處理,進行故障定位并發(fā)送指令到主板進行BMC日志的收集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州浪潮智能科技有限公司,未經(jīng)蘇州浪潮智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011171776.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





