[發明專利]一種設備異常檢測方法和設備在審
| 申請號: | 201410330525.1 | 申請日: | 2014-07-11 |
| 公開(公告)號: | CN104079454A | 公開(公告)日: | 2014-10-01 |
| 發明(設計)人: | 趙志宇;秦占明 | 申請(專利權)人: | 杭州華三通信技術有限公司 |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;H04L29/08 |
| 代理公司: | 北京鑫媛睿博知識產權代理有限公司 11297 | 代理人: | 龔家驊 |
| 地址: | 310052 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 設備 異常 檢測 方法 | ||
技術領域
本發明涉及通信技術領域,特別涉及一種設備異常檢測方法和設備。
背景技術
網絡設備具有高可靠性、遠程可維護性、在線診斷和自動恢復的特點,所以網絡設備需要對系統異常(包括死循環、CPU訪問不存在的地址,CPU運行指令被改寫,多核CPU死鎖等)進行監控。網絡設備主要有兩種異常監控機制,一種是板卡內部的看門狗檢測;一種是分布式網絡設備不同板卡間的心跳檢測。
分布式網絡設備上每塊板卡都有看門狗裝置,看門狗裝置可能是一個獨立的硬件芯片,也可能是CPLD(Complex?Programmable?Logic?Device,復雜可編程邏輯器件)或FPGA(Field-Programmable?Gate?Array,現場可編程門陣列)內的一塊邏輯實現,也可能是SOC(System?on?Chip,系統級芯片)CPU片內硬件看門狗模塊。在板卡CPU發生異常的情況下,CPU無法清狗會導致板卡看門狗超時觸發板卡重啟。看門狗是網絡設備最主要的異常監控手段,但是對于CPU軟件在死循環中主動清看門狗的情況,則無法起到監控作用。
分布式網絡設備為了解決看門狗的局限,主控板會定期發送心跳報文來監控接口板運行情況。主控板發送心跳報文給特定接口板,主控板在規定時間內收到特定接口板的確認心跳報文表示該接口板運行正常,主控板在規定時間內沒有收到特定接口板發送的確認心跳報文則表示該接口板運行異常。主控板在判定特定接口板異常后,會通過硬件復位管腳重啟特定接口板。雙主控之間,也可以采用心跳檢測的方法進行異常監控,如圖1所示,為現有技術中的分布式設備心跳監控機制示意圖。需要說明的是,現有心跳實現方案,主控板監控接口板的心跳,主控板向接口板發送心跳報文不是必須的,但接口板向主控板發送心跳報文是必須的。
分布式網絡設備在運行過程中,普遍采用看門狗和心跳檢測相結合的異常監控機制,其中主控板和接口板之間心跳檢測,常規實現是主控板的CPU和接口板的CPU之間,通過以太網總線互連,主用主控板CPU定期向備用主控板CPU和接口板CPU發送心跳報文,收到心跳報文后備用主控板CPU和接口板CPU需要在規定時間內發送心跳應答報文;其中看門狗監控,常規實現每塊板卡都有獨立于板卡CPU的看門狗裝置,用CPLD或FPGA內邏輯芯片實現。如圖2所示,為現有技術中的分布式網絡設備現有異常監控方案的示意圖。
在實現本發明的過程中,發明人發現現有技術至少存在以下問題:
現有兩種監控機制相結合的方案提高了分布式網絡設備的可靠性,但由于兩種監控機制都是相互獨立運行在同一個分布式網絡設備中,在某些情況下會引入問題。
例如,在分布式網絡設備中,假如接口板發生異常(包括CPU死循環等),由于接口板內部采用看門狗異常檢測機制會導致看門狗超時使接口板重啟,但是在接口板重啟過程中因為無法應答主控板心跳報文,主控板一段時間內收不到接口板應答心跳報文導致主控板心跳超時,在接口板重啟過程中,主控板通過硬件復位管腳再次重啟接口板。
這樣的二次重啟導致接口板業務恢復變慢,并且,使異常板卡最終重啟原因和實際異常重啟原因不一致,增加了定位和解決問題的難度。
發明內容
本發明實施例提供一種設備異常檢測方法和設備,解決現有的心跳檢測和看門狗檢測相結合的故障檢測技術會導致板卡二次重啟的問題。
為達到上述目的,本發明實施例一方面提供了一種設備異常檢測方法,應用于包括多個板卡的網絡系統中,所述板卡被配置為主控板或接口板,所述各板卡包括CPU、心跳檢測裝置和故障檢測裝置,所述方法包括:
當所述接口板啟動時,所述接口板的心跳檢測裝置接收所述接口板的CPU的指示進入CPU控制心跳模式;
在所述CPU控制心跳模式下,當所述接口板的心跳檢測裝置檢測到所述接口板的CPU完成了預定操作時,所述接口板的心跳檢測裝置向所述主控板的心跳檢測裝置發送心跳報文;
當所述接口板的故障檢測裝置判斷所述CPU發生故障時,所述接口板的心跳檢測裝置接收所述接口板的故障檢測裝置的指示進入獨立心跳模式;
在所述獨立心跳模式下,所述接口板的心跳檢測裝置按照預設的心跳檢測周期自動向所述主控板的心跳檢測裝置發送心跳報文。
另一方面,本發明實施例還提供了一種板卡,應用于包括多個板卡的網絡系統中,所述板卡被配置為主控板或接口板,所述各板卡包括CPU、心跳檢測裝置和故障檢測裝置:
當所述板卡被設置為接口板時,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州華三通信技術有限公司,未經杭州華三通信技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410330525.1/2.html,轉載請聲明來源鉆瓜專利網。





