[發(fā)明專利]一種服務(wù)器磁盤監(jiān)控及故障預(yù)測(cè)的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202210384705.2 | 申請(qǐng)日: | 2022-04-13 |
| 公開(公告)號(hào): | CN114911670A | 公開(公告)日: | 2022-08-16 |
| 發(fā)明(設(shè)計(jì))人: | 朱穎航;朱品燕 | 申請(qǐng)(專利權(quán))人: | 北京云集智造科技有限公司 |
| 主分類號(hào): | G06F11/30 | 分類號(hào): | G06F11/30;G06K9/62;G06Q10/04 |
| 代理公司: | 北京博識(shí)智信專利代理事務(wù)所(普通合伙) 16067 | 代理人: | 鄧凌云 |
| 地址: | 100000 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 服務(wù)器 磁盤 監(jiān)控 故障 預(yù)測(cè) 方法 | ||
本發(fā)明公開了一種服務(wù)器磁盤監(jiān)控及故障預(yù)測(cè)的方法,包括服務(wù)器硬件管理,所述服務(wù)器硬件管理包括帶內(nèi)和帶外兩部分,所述服務(wù)器硬件管理內(nèi)設(shè)置有數(shù)據(jù)信息和管理信息,所述數(shù)據(jù)信息和管理信息通過網(wǎng)絡(luò)設(shè)備以太網(wǎng)端口進(jìn)行傳送,本發(fā)明采用了上述技術(shù)方案,簡(jiǎn)化了在公有云/私有云中使用多個(gè)廠商服務(wù)器環(huán)境下,現(xiàn)有x86平臺(tái)服務(wù)器對(duì)于磁盤監(jiān)控管理成本,相對(duì)于之前需要維護(hù)多套不同廠商管理措施和軟件的方式,本發(fā)明最終只需要基于通用的API完成對(duì)于所有x86服務(wù)器磁盤的監(jiān)管控,且基于采集的smart數(shù)據(jù)實(shí)現(xiàn)了對(duì)于故障的預(yù)測(cè)分析。
技術(shù)領(lǐng)域
本發(fā)明涉及服務(wù)器監(jiān)控和故障預(yù)測(cè)領(lǐng)域,具體是指一種服務(wù)器磁盤監(jiān)控及故障預(yù)測(cè)的方法。
背景技術(shù)
該領(lǐng)域目前存在2種方案:
1.帶內(nèi)agent的形式,此種形式以各類廠商自己的工具,例如dell的Openmanage、HP的System Management Homepage,開源工具以smartmontools為例,通過帶內(nèi)agent獲取磁盤的狀態(tài)信息(SMART信息為主),再結(jié)合內(nèi)置的固定閾值來實(shí)現(xiàn)對(duì)于磁盤本身狀態(tài)的判定;
2.帶外ipmi的方式,此類方式較為簡(jiǎn)單,通過判斷連接到硬盤的硬件信號(hào)狀態(tài),來判斷磁盤是否正常;
現(xiàn)有技術(shù)中存在的缺點(diǎn)如下:
(1)其實(shí)現(xiàn)方式與廠商相關(guān),通常使用廠家自帶的工具,a)首先基于開源的工具獲取磁盤smart數(shù)據(jù),b)基于smart閾值判定的實(shí)現(xiàn)方式主要來自于每個(gè)廠商自有的故障數(shù)據(jù)集,而真實(shí)環(huán)境下磁盤的故障與數(shù)據(jù)中心內(nèi)的通風(fēng)、震動(dòng)狀態(tài),以及軟件使用狀態(tài)密切相關(guān),與廠商自身的實(shí)現(xiàn)有明顯差別,基于1的固定閾值方式通常不會(huì)準(zhǔn)確。
(2)其實(shí)現(xiàn)方式通常采用服務(wù)器硬件布線+傳感器檢測(cè)的方式,該方式由于并不探查具體io協(xié)議棧內(nèi)容,只能通過檢測(cè)信號(hào)有無、強(qiáng)弱的方式來進(jìn)行檢測(cè),故只能感知到磁盤本身斷電,芯片故障等嚴(yán)重的錯(cuò)誤,檢測(cè)內(nèi)容較少。
為了解決上述問題,一種服務(wù)器磁盤監(jiān)控及故障預(yù)測(cè)的方法成為整個(gè)社會(huì)亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本發(fā)明提供的技術(shù)方案為:一種服務(wù)器磁盤監(jiān)控及故障預(yù)測(cè)的方法,包括服務(wù)器硬件管理,所述服務(wù)器硬件管理包括帶內(nèi)和帶外兩部分,所述服務(wù)器硬件管理內(nèi)設(shè)置有數(shù)據(jù)信息和管理信息,所述數(shù)據(jù)信息和管理信息通過網(wǎng)絡(luò)設(shè)備以太網(wǎng)端口進(jìn)行傳送,包括以下方法:
(1)針對(duì)服務(wù)器硬件監(jiān)控,需要針對(duì)不同硬部件使用原生的應(yīng)用編程接口(API)獲取相關(guān)的metric,例如hdd使用ATA/SCSI協(xié)議,以及部分RAID廠商提供的工具等。獲取metric的同時(shí)會(huì)對(duì)數(shù)據(jù)劃分類別,按照基本配置信息、故障信息、功耗信息、使用情況等類別進(jìn)行歸一化分類,所以針對(duì)x86平臺(tái),最重要的是定義一套通用的硬件監(jiān)控及數(shù)據(jù)展示API;
(2)在對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化定義的過程中,會(huì)參照硬件設(shè)備本身的屬性,以脫離于具體表示形式的方式定義數(shù)據(jù)格式,具體命名方式為設(shè)備類型.數(shù)據(jù)維度(基本信息/故障/功耗/運(yùn)行時(shí)os內(nèi)狀態(tài)).具體維度,該命名方式可以支持隨著硬件類型/某類型硬件數(shù)量動(dòng)態(tài)調(diào)整變化;
(3)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的結(jié)果如下,定義的依據(jù)為硬盤固有的配置信息(basic),運(yùn)行時(shí)操作系統(tǒng)層面(以linux為例)以及內(nèi)部的配置信息(status/smart)
(4)在采集程序agent內(nèi)部會(huì)基于設(shè)備功能性模型,提供對(duì)應(yīng)的高級(jí)功能輸出。
進(jìn)一步地,所述帶外包括以下兩個(gè)部分:
(1)基于IPMI協(xié)議的服務(wù)器廠商自定義拓展,核心集中在各種不同的自定義命令,可以接管服務(wù)器主要的硬件設(shè)備管理,受限于帶外協(xié)議以及資源的限制,部分信息暫時(shí)無法獲取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京云集智造科技有限公司,未經(jīng)北京云集智造科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210384705.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè);錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過軟件的測(cè)試或調(diào)試防止錯(cuò)誤
- 一種基于UDP分布式小文件存儲(chǔ)系統(tǒng)及其數(shù)據(jù)處理方法
- 一種新型云計(jì)算管理系統(tǒng)
- 一種云計(jì)算管理裝置
- 一種節(jié)能數(shù)據(jù)服務(wù)器架構(gòu)系統(tǒng)
- 一種基于云計(jì)算的客戶信息管理裝置
- 一種基于即時(shí)通訊技術(shù)的通訊系統(tǒng)
- 服務(wù)器系統(tǒng)及分配服務(wù)器的方法
- 一種MMORPG游戲服務(wù)器端
- 一種訪問請(qǐng)求的處理方法、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于Spark技術(shù)的大數(shù)據(jù)脫敏管理系統(tǒng)
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 一種范圍廣、力度大的校內(nèi)監(jiān)控系統(tǒng)
- 一種監(jiān)控的方法及系統(tǒng)
- 設(shè)備的監(jiān)控方法、裝置、系統(tǒng)和空調(diào)
- 多級(jí)校內(nèi)監(jiān)控系統(tǒng)
- 設(shè)備監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 風(fēng)險(xiǎn)雷達(dá)預(yù)警的監(jiān)控方法及系統(tǒng)
- 區(qū)塊鏈網(wǎng)絡(luò)監(jiān)控系統(tǒng)、裝置及方法
- 基于機(jī)器視覺的車站客流安全智能監(jiān)控系統(tǒng)
- 故障檢測(cè)裝置、故障檢測(cè)方法以及故障檢測(cè)程序
- 故障預(yù)測(cè)裝置、故障預(yù)測(cè)方法及故障預(yù)測(cè)程序
- 故障分析裝置、故障分析系統(tǒng)及故障分析方法
- 故障檢測(cè)方法、故障檢測(cè)裝置和故障檢測(cè)系統(tǒng)
- 故障檢測(cè)裝置、故障檢測(cè)方法及計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)
- 故障檢測(cè)裝置、故障檢測(cè)方法和計(jì)算機(jī)能讀取的存儲(chǔ)介質(zhì)
- 故障檢測(cè)裝置、故障檢測(cè)系統(tǒng)、故障檢測(cè)方法
- 故障處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 故障排除方法、故障排除裝置及故障排除系統(tǒng)
- 故障檢測(cè)電路、故障檢測(cè)系統(tǒng)及故障檢測(cè)方法





