[發(fā)明專(zhuān)利]基于核內(nèi)外協(xié)同的高可用計(jì)算機(jī)系統(tǒng)故障處理方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410215175.4 | 申請(qǐng)日: | 2014-05-21 |
| 公開(kāi)(公告)號(hào): | CN103995759A | 公開(kāi)(公告)日: | 2014-08-20 |
| 發(fā)明(設(shè)計(jì))人: | 廖湘科;顏躍進(jìn);李俊良;劉曉建;楊沙洲;姚望;汪黎;秦瑩;周強(qiáng);王非 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué) |
| 主分類(lèi)號(hào): | G06F11/22 | 分類(lèi)號(hào): | G06F11/22 |
| 代理公司: | 湖南兆弘專(zhuān)利事務(wù)所 43008 | 代理人: | 趙洪;譚武藝 |
| 地址: | 410073 湖南省長(zhǎng)沙市硯瓦池正*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 內(nèi)外 協(xié)同 可用 計(jì)算機(jī) 系統(tǒng)故障 處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)系統(tǒng)的高可用管理技術(shù)領(lǐng)域,具體涉及一種基于核內(nèi)外協(xié)同的高可用計(jì)算機(jī)系統(tǒng)故障處理方法及裝置。
背景技術(shù)
計(jì)算機(jī)系統(tǒng)的可用性是評(píng)價(jià)一個(gè)計(jì)算機(jī)系統(tǒng)穩(wěn)定可靠的指標(biāo),其通常通過(guò)平均無(wú)故障時(shí)間來(lái)進(jìn)行度量。平均無(wú)故障時(shí)間越長(zhǎng),則該計(jì)算機(jī)系統(tǒng)的可用性就越高。影響計(jì)算機(jī)系統(tǒng)可用性的因素既有軟件方面也有硬件方面。軟件故障通常指計(jì)算機(jī)系統(tǒng)的程序或軟件因?yàn)槟撤N因素破壞導(dǎo)致無(wú)法正常工作或影響正常使用,軟件故障的影響域一般為軟件自身以及依賴(lài)于此軟件的其它軟件或程序。硬件故障通常指計(jì)算機(jī)系統(tǒng)的物理硬件因?yàn)槟撤N因素破壞導(dǎo)致無(wú)法正常工作或影響正常使用,硬件故障對(duì)計(jì)算機(jī)系統(tǒng)影響較大,嚴(yán)重時(shí)會(huì)導(dǎo)致系統(tǒng)宕機(jī)。
現(xiàn)有技術(shù)的計(jì)算機(jī)系統(tǒng)對(duì)于硬件故障的檢測(cè)依賴(lài)于硬件驅(qū)動(dòng)程序,而對(duì)于軟件故障,通常采用定時(shí)輪詢(xún)機(jī)制完成服務(wù)狀態(tài)檢測(cè)。完成故障檢測(cè)后,立即按照驅(qū)動(dòng)或程序默認(rèn)策略進(jìn)行故障處理,并記錄各自的處理日志。但是,現(xiàn)有技術(shù)的計(jì)算機(jī)系統(tǒng)在高可用管理上存在以下問(wèn)題:1、計(jì)算機(jī)系統(tǒng)獨(dú)立處理與報(bào)告軟件和硬件故障,缺乏軟硬件故障統(tǒng)一管理;2、傳統(tǒng)熱備技術(shù)對(duì)軟件故障監(jiān)測(cè)效率低,無(wú)法及時(shí)感知硬件故障;3、計(jì)算機(jī)系統(tǒng)對(duì)軟硬件故障處理流程復(fù)雜,用戶(hù)無(wú)法定義處置規(guī)則。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題是:針對(duì)現(xiàn)有技術(shù)存在的技術(shù)問(wèn)題,提供一種能夠?qū)崿F(xiàn)軟硬件故障統(tǒng)一管理,對(duì)軟件故障和硬件故障的檢測(cè)高效及時(shí),處理流程簡(jiǎn)單,故障處理規(guī)則擴(kuò)展方便、能夠保證計(jì)算機(jī)系統(tǒng)在軟件故障或硬件故障下高可用性的基于核內(nèi)外協(xié)同的高可用計(jì)算機(jī)系統(tǒng)故障處理方法及裝置。
為了解決上述技術(shù)問(wèn)題,本發(fā)明提供的技術(shù)方案為:
一種基于核內(nèi)外協(xié)同的高可用計(jì)算機(jī)系統(tǒng)故障處理方法,其實(shí)施步驟如下:
1)在操作系統(tǒng)內(nèi)核外檢測(cè)包含系統(tǒng)服務(wù)故障和應(yīng)用服務(wù)故障在內(nèi)的服務(wù)故障生成故障報(bào)告并通過(guò)所述故障報(bào)告接口輸出,同時(shí)在操作系統(tǒng)內(nèi)核中檢測(cè)硬件故障生成故障報(bào)告并通過(guò)在操作系統(tǒng)內(nèi)核外建立的故障報(bào)告接口輸出;
2)在操作系統(tǒng)內(nèi)核外檢測(cè)故障報(bào)告接口的故障報(bào)告,在收到故障報(bào)告后對(duì)故障報(bào)告進(jìn)行分析,根據(jù)分析結(jié)果在操作系統(tǒng)內(nèi)核中對(duì)硬件故障對(duì)應(yīng)的硬件進(jìn)行故障處理,或者在操作系統(tǒng)內(nèi)核外對(duì)服務(wù)故障對(duì)應(yīng)的服務(wù)進(jìn)行故障處理,對(duì)故障處理記錄日志并向管理員發(fā)送通知,然后根據(jù)預(yù)設(shè)的規(guī)則判斷是否需要進(jìn)行雙機(jī)熱備,如果需要雙機(jī)熱備則通知指定的雙機(jī)熱備軟件進(jìn)行雙機(jī)熱備。
優(yōu)選地,所述步驟1)中在操作系統(tǒng)內(nèi)核外檢測(cè)包含系統(tǒng)服務(wù)故障和應(yīng)用服務(wù)故障在內(nèi)的服務(wù)故障生成故障報(bào)告并通過(guò)所述故障報(bào)告接口輸出具體是指:
1.1.1)在操作系統(tǒng)內(nèi)核外以輪詢(xún)的方式對(duì)操作系統(tǒng)中系統(tǒng)服務(wù)和應(yīng)用服務(wù)進(jìn)行狀態(tài)檢測(cè),如果任意系統(tǒng)服務(wù)或者應(yīng)用服務(wù)出現(xiàn)異常狀態(tài),則判定發(fā)生服務(wù)故障;
1.1.2)在判定發(fā)生服務(wù)故障后,根據(jù)系統(tǒng)服務(wù)或者應(yīng)用服務(wù)出現(xiàn)異常狀態(tài)的信息生成故障報(bào)告,將所述故障報(bào)告通過(guò)所述故障報(bào)告接口輸出。
優(yōu)選地,所述步驟1)中在操作系統(tǒng)內(nèi)核中檢測(cè)硬件故障生成故障報(bào)告并通過(guò)所述故障報(bào)告接口輸出的詳細(xì)步驟如下:
1.2.1)通過(guò)預(yù)先分布在故障注入接口、故障中斷處理例程和硬件驅(qū)動(dòng)中的多個(gè)硬件狀態(tài)監(jiān)測(cè)點(diǎn)檢測(cè)對(duì)應(yīng)的硬件狀態(tài)信息,如果任意硬件狀態(tài)監(jiān)測(cè)點(diǎn)檢測(cè)的硬件狀態(tài)發(fā)生異常,則所述硬件狀態(tài)監(jiān)測(cè)點(diǎn)根據(jù)預(yù)設(shè)的規(guī)則收集對(duì)應(yīng)硬件的現(xiàn)場(chǎng)數(shù)據(jù)作為硬件故障數(shù)據(jù);
1.2.2)將硬件故障數(shù)據(jù)進(jìn)行封裝生成故障報(bào)告并存入預(yù)設(shè)的故障消息隊(duì)列;
1.2.3)根據(jù)故障消息隊(duì)列對(duì)存入故障消息隊(duì)列的故障報(bào)告進(jìn)行調(diào)度分發(fā);
1.2.4)利用線(xiàn)程將調(diào)度輸出的故障報(bào)告通過(guò)所述故障報(bào)告接口輸出。
優(yōu)選地,所述步驟2)的詳細(xì)步驟如下:
2.1)在操作系統(tǒng)內(nèi)核外基于守護(hù)進(jìn)程檢測(cè)故障報(bào)告接口的故障報(bào)告;
2.2)在操作系統(tǒng)內(nèi)核外在收到故障報(bào)告后對(duì)故障報(bào)告進(jìn)行分析,判斷故障報(bào)告的故障類(lèi)型,如果故障類(lèi)型為服務(wù)故障,則根據(jù)服務(wù)依賴(lài)關(guān)系描述對(duì)服務(wù)故障對(duì)應(yīng)的系統(tǒng)服務(wù)或者應(yīng)用服務(wù)進(jìn)行恢復(fù);如果故障類(lèi)型為硬件故障,則判斷是否需要對(duì)故障報(bào)告對(duì)應(yīng)的硬件進(jìn)行故障硬件隔離,如果需要進(jìn)行故障硬件隔離則跳轉(zhuǎn)執(zhí)行步驟2.3),否則判斷是否需要對(duì)故障報(bào)告對(duì)應(yīng)的硬件進(jìn)行故障硬件恢復(fù),如果需要進(jìn)行故障硬件恢復(fù)則跳轉(zhuǎn)執(zhí)行步驟2.4),否則跳轉(zhuǎn)執(zhí)行步驟2.5);
2.3)在需要對(duì)故障報(bào)告對(duì)應(yīng)的硬件進(jìn)行故障硬件隔離時(shí),在操作系統(tǒng)內(nèi)核中對(duì)故障報(bào)告對(duì)應(yīng)的硬件進(jìn)行故障硬件隔離;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科學(xué)技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410215175.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè);錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過(guò)測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過(guò)處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過(guò)軟件的測(cè)試或調(diào)試防止錯(cuò)誤
- 移動(dòng)通信終端的協(xié)同方法及其界面系統(tǒng)
- 業(yè)務(wù)協(xié)同流程配置、業(yè)務(wù)協(xié)同方法及裝置
- 一種基于健康檔案共享平臺(tái)的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
- 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
- 基于協(xié)同網(wǎng)關(guān)的跨域協(xié)同交互方法
- 一種生產(chǎn)協(xié)同管理方法及系統(tǒng)
- 云邊協(xié)同方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種智能辦公協(xié)同操作方法及系統(tǒng)
- 一種用于無(wú)人裝備的時(shí)間協(xié)同航跡規(guī)劃方法
- 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)





