[發明專利]用于服務器集群故障診斷的處理方法、處理裝置、及處理設備、用于服務器故障診斷的方法及計算機可讀存儲介質有效
| 申請號: | 202110322834.4 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN112988444B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 曾令新;林哲偉;嚴勇;李小龍 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F11/07 | 分類號: | G06F11/07;G06F11/30 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 王娟 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 服務器 集群 故障診斷 處理 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
1.一種用于服務器集群故障診斷的處理方法,包括:
響應于所述服務器集群中出現發生災難性故障的服務器,在所述服務器中執行自動診斷;
在所述自動診斷失敗的情況下,在所述服務器輸出的實時操作信息中添加診斷失敗信息,其中,所述診斷失敗信息包括與所述自動診斷失敗對應的診斷失敗關鍵字,并且所述診斷失敗關鍵字用于指示所述災難性故障;
在處理裝置中,基于所述診斷失敗信息中的所述診斷失敗關鍵字,從所述實時操作信息中篩選出所述診斷失敗信息,并對所述診斷失敗信息進行分析;以及
基于分析結果,確定對所述服務器的所述故障的處理方式,
其中,所述自動診斷包括:
對所述服務器的與所述故障相關的多個寄存器進行信息采集,其中,在存在所述多個寄存器中的至少一個寄存器無法完成信息采集的情況下,確定所述自動診斷失敗;以及
在對所述多個寄存器完成信息采集后,對所采集的寄存器信息進行分析,以得到第一故障分析結果,其中,在所述第一故障分析結果指示無法確定所述服務器的故障部件或指示所述服務器中存在多個故障部件的情況下,確定所述自動診斷失敗,
其中,所述多個寄存器包括用于指示所述服務器的故障部件的錯誤指向寄存器,其中,對所采集的寄存器信息進行分析包括:
對所采集的寄存器中的所述錯誤指向寄存器進行分析,以確定所述服務器中先發生異常的處理器;
在基于所述錯誤指向寄存器無法確定所述先發生異常的處理器的情況下,對所采集的寄存器中的時間戳寄存器進行比較,以確定所述服務器中先發生異常的處理器;
在確定了所述先發生異常的處理器的情況下,基于該處理器的所述錯誤指向寄存器的值確定該處理器中的具體報錯寄存器,其中所述具體報錯寄存器用于指示所述服務器的故障部件;以及
在基于所述錯誤指向寄存器和所述時間戳寄存器均無法確定所述先發生異常的處理器的情況下,或者在基于該處理器的所述錯誤指向寄存器的值無法確定具體報錯寄存器的情況下,對所采集的寄存器進行寄存器遍歷,以確定所述先發生異常的處理器中的所述具體報錯寄存器;
其中,對所采集的寄存器進行寄存器遍歷包括按照預定的優先級對所采集的寄存器進行遍歷分析,以確定其中的所述具體報錯寄存器。
2.如權利要求1所述的處理方法,其中,基于所述診斷失敗信息中的所述診斷失敗關鍵字,從所述實時操作信息中篩選出所述診斷失敗信息包括:
在所述實時操作信息中監控所述診斷失敗信息,其中所述監控包括在所述實時操作信息中匹配所述診斷失敗關鍵字;以及
在成功匹配到所述診斷失敗關鍵字后,獲取與所述診斷失敗關鍵字對應的診斷失敗信息;
其中,包括所述診斷失敗信息的所述實時操作信息還用于指示執行故障分析任務的目標對象,其中,對所述診斷失敗信息進行分析包括:
基于所述診斷失敗信息中的所述診斷失敗關鍵字,創建對所述診斷失敗信息所對應的故障的故障分析任務;
基于包括所述診斷失敗信息的所述實時操作信息,確定執行故障分析任務的目標對象;
將所述故障分析任務提供至所述執行故障分析任務的目標對象;以及
從所述執行故障分析任務的目標對象獲取對所述故障分析任務的所述分析結果。
3.如權利要求2所述的處理方法,其中,基于分析結果,確定對所述服務器的所述故障的處理方式包括:
在所述分析結果指示確定所述服務器中存在要替換的部件的情況下,創建指示所述要替換的部件的部件替換任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110322834.4/1.html,轉載請聲明來源鉆瓜專利網。





