[發(fā)明專利]一種基于分布式故障監(jiān)控的方法和虛擬機(jī)高可用系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010812521.2 | 申請(qǐng)日: | 2020-08-13 |
| 公開(kāi)(公告)號(hào): | CN111953566B | 公開(kāi)(公告)日: | 2022-03-11 |
| 發(fā)明(設(shè)計(jì))人: | 姚培;瞿洪桂;馮龍飛;趙策 | 申請(qǐng)(專利權(quán))人: | 北京中電興發(fā)科技有限公司 |
| 主分類號(hào): | H04L43/0817 | 分類號(hào): | H04L43/0817;H04L41/0659;G06F9/455 |
| 代理公司: | 北京市盛峰律師事務(wù)所 11337 | 代理人: | 于國(guó)強(qiáng) |
| 地址: | 100095 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分布式 故障 監(jiān)控 方法 虛擬機(jī) 可用 系統(tǒng) | ||
1.一種基于分布式故障監(jiān)控的方法,其特征在于,包括物理機(jī)故障檢測(cè)、虛擬機(jī)生命周期事件檢測(cè)和運(yùn)行進(jìn)程檢測(cè);
物理機(jī)的檢測(cè)包括以下步驟:
S101、檢測(cè)常駐進(jìn)程所在節(jié)點(diǎn)的自身網(wǎng)絡(luò)狀態(tài),若自身網(wǎng)絡(luò)狀態(tài)不正常,則停止檢測(cè);若自身網(wǎng)絡(luò)狀態(tài)正常,則開(kāi)始檢測(cè)非維護(hù)態(tài)節(jié)點(diǎn);
S102、獲取所述非維護(hù)態(tài)節(jié)點(diǎn)的信息,檢測(cè)所述非維護(hù)態(tài)節(jié)點(diǎn)中是否有檢測(cè)任務(wù)運(yùn)行,若所述非維護(hù)態(tài)節(jié)點(diǎn)中沒(méi)有所述檢測(cè)任務(wù),則新建所述檢測(cè)任務(wù);否則,所述常駐進(jìn)程所在節(jié)點(diǎn)開(kāi)始執(zhí)行所述非維護(hù)態(tài)節(jié)點(diǎn)的檢測(cè)任務(wù);
S103、所述檢測(cè)任務(wù)設(shè)置有預(yù)設(shè)最大時(shí)長(zhǎng),若所述檢測(cè)任務(wù)的執(zhí)行時(shí)間超過(guò)所述預(yù)設(shè)最大時(shí)長(zhǎng),則更換檢測(cè)任務(wù)執(zhí)行單元對(duì)所述非維護(hù)態(tài)節(jié)點(diǎn)執(zhí)行所述檢測(cè)任務(wù);若未超過(guò)所述預(yù)設(shè)最大時(shí)長(zhǎng),則跳過(guò)所述非維護(hù)態(tài)節(jié)點(diǎn),開(kāi)始判斷下一個(gè)所述非維護(hù)態(tài)節(jié)點(diǎn)的檢測(cè)任務(wù)是否超時(shí);
S104、若被檢測(cè)的所述非維護(hù)態(tài)節(jié)點(diǎn)的檢測(cè)結(jié)果為狀態(tài)正常,則停止運(yùn)行對(duì)應(yīng)所述非維護(hù)態(tài)節(jié)點(diǎn)的檢測(cè)任務(wù),開(kāi)始對(duì)下一個(gè)所述非維護(hù)態(tài)節(jié)點(diǎn)執(zhí)行所述檢測(cè)任務(wù);否則,獲取所述檢測(cè)任務(wù)對(duì)應(yīng)的所述非維護(hù)態(tài)節(jié)點(diǎn)信息,生成故障通知并發(fā)送;
S105、重復(fù)步驟S102ˉS104,當(dāng)所有所述非維護(hù)態(tài)節(jié)點(diǎn)的所述檢測(cè)任務(wù)全部執(zhí)行一遍,則結(jié)束一輪所述物理機(jī)的檢測(cè)周期;
虛擬機(jī)的生命周期事件檢測(cè)包括以下步驟:
S201、建立所述節(jié)點(diǎn)與虛擬化軟件之間的連接,查詢所述節(jié)點(diǎn)上的虛擬機(jī)信息,并監(jiān)聽(tīng)所述虛擬機(jī)的生命周期;
S202、檢測(cè)到所述虛擬機(jī)存在異常的生命周期事件時(shí),獲取所述異常的生命周期事件對(duì)應(yīng)的所述虛擬機(jī)信息;
S203、將步驟S202中檢測(cè)到的所述異常的生命周期事件的詳情和對(duì)應(yīng)的所述虛擬機(jī)信息作為故障信息,發(fā)送故障通知;
運(yùn)行進(jìn)程的檢測(cè)包括以下步驟:
S301、由常駐進(jìn)程獲取所有待檢測(cè)的運(yùn)行進(jìn)程的信息;
S302、遍歷檢查所有待檢測(cè)的運(yùn)行進(jìn)程,若所有待檢測(cè)的運(yùn)行進(jìn)程均正常運(yùn)行,則檢測(cè)周期結(jié)束;若待檢測(cè)的運(yùn)行進(jìn)程的運(yùn)行存在異常,則嘗試?yán)甬惓M顺龅倪M(jìn)程,并檢測(cè)拉起結(jié)果;
S303、若步驟S302中檢測(cè)到所述進(jìn)程拉起成功,則結(jié)束所述運(yùn)行進(jìn)程的檢測(cè);而檢測(cè)到所述進(jìn)程拉起失敗,則收集所述運(yùn)行進(jìn)程對(duì)應(yīng)的節(jié)點(diǎn)信息和所述運(yùn)行進(jìn)程的信息,形成故障信息,發(fā)送故障通知。
2.根據(jù)權(quán)利要求1所述的基于分布式故障監(jiān)控的方法,其特征在于,將所述檢測(cè)任務(wù)進(jìn)行同步,當(dāng)所述檢測(cè)任務(wù)所在的所述非維護(hù)態(tài)節(jié)點(diǎn)已經(jīng)完成檢測(cè)時(shí),執(zhí)行其他檢測(cè)任務(wù)的常駐進(jìn)程所在節(jié)點(diǎn)同步已檢測(cè)信息,避免對(duì)同一個(gè)所述非維護(hù)態(tài)節(jié)點(diǎn)進(jìn)行重復(fù)檢測(cè)。
3.一種基于分布式故障監(jiān)控的虛擬機(jī)高可用系統(tǒng),其特征在于,包括故障檢測(cè)模塊、故障通知處理模塊和故障恢復(fù)模塊;所述故障檢測(cè)模塊的輸出端與所述故障通知處理模塊的輸入端向連接;所述故障通知處理模塊和所述故障恢復(fù)模塊之間進(jìn)行數(shù)據(jù)交互;
所述故障檢測(cè)模塊采用權(quán)利要求1所述的方法進(jìn)行故障監(jiān)控,通過(guò)讀取每一個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)配置信息,檢測(cè)物理機(jī)的網(wǎng)絡(luò)狀態(tài),并向所述故障通知處理模塊發(fā)送網(wǎng)絡(luò)狀態(tài)異常的節(jié)點(diǎn)信息;調(diào)用接口接收虛擬機(jī)的生命周期事件,并向所述故障通知處理模塊發(fā)送生命周期事件異常的虛擬機(jī)信息;通過(guò)常駐進(jìn)程監(jiān)聽(tīng)預(yù)設(shè)的特定進(jìn)程的運(yùn)行狀態(tài),并向所述故障通知處理模塊發(fā)送無(wú)法自行恢復(fù)的預(yù)設(shè)的特定進(jìn)程對(duì)應(yīng)的節(jié)點(diǎn)信息;
所述故障通知處理模塊接收所述故障檢測(cè)模塊發(fā)送的所述故障通知,進(jìn)行存儲(chǔ);并傳輸給所述故障恢復(fù)模塊;接收所述故障恢復(fù)模塊返回的故障處理結(jié)果;
所述故障恢復(fù)模塊接收所述故障通知處理模塊傳輸?shù)墓收贤ㄖ⒏鶕?jù)不同的故障情況,判斷故障節(jié)點(diǎn)的隔離級(jí)別,并觸發(fā)不同的故障恢復(fù)任務(wù),將故障恢復(fù)結(jié)果發(fā)送給所述故障通知處理模塊。
4.根據(jù)權(quán)利要求3所述的基于分布式故障監(jiān)控的虛擬機(jī)高可用系統(tǒng),其特征在于,所述故障檢測(cè)模塊同時(shí)針對(duì)管理網(wǎng)絡(luò)層、存儲(chǔ)網(wǎng)絡(luò)層和業(yè)務(wù)網(wǎng)絡(luò)層的網(wǎng)絡(luò)狀態(tài)進(jìn)行檢測(cè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中電興發(fā)科技有限公司,未經(jīng)北京中電興發(fā)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010812521.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 故障檢測(cè)裝置、故障檢測(cè)方法以及故障檢測(cè)程序
- 故障預(yù)測(cè)裝置、故障預(yù)測(cè)方法及故障預(yù)測(cè)程序
- 故障分析裝置、故障分析系統(tǒng)及故障分析方法
- 故障檢測(cè)方法、故障檢測(cè)裝置和故障檢測(cè)系統(tǒng)
- 故障檢測(cè)裝置、故障檢測(cè)方法及計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)
- 故障檢測(cè)裝置、故障檢測(cè)方法和計(jì)算機(jī)能讀取的存儲(chǔ)介質(zhì)
- 故障檢測(cè)裝置、故障檢測(cè)系統(tǒng)、故障檢測(cè)方法
- 故障處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 故障排除方法、故障排除裝置及故障排除系統(tǒng)
- 故障檢測(cè)電路、故障檢測(cè)系統(tǒng)及故障檢測(cè)方法
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 一種范圍廣、力度大的校內(nèi)監(jiān)控系統(tǒng)
- 一種監(jiān)控的方法及系統(tǒng)
- 設(shè)備的監(jiān)控方法、裝置、系統(tǒng)和空調(diào)
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 設(shè)備監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 風(fēng)險(xiǎn)雷達(dá)預(yù)警的監(jiān)控方法及系統(tǒng)
- 區(qū)塊鏈網(wǎng)絡(luò)監(jiān)控系統(tǒng)、裝置及方法
- 基于機(jī)器視覺(jué)的車站客流安全智能監(jiān)控系統(tǒng)





