[發(fā)明專利]一種分布式hadoop集群故障自動診斷修復(fù)系統(tǒng)有效
| 申請?zhí)枺?/td> | 201510650975.3 | 申請日: | 2015-10-10 |
| 公開(公告)號: | CN105337765B | 公開(公告)日: | 2018-10-12 |
| 發(fā)明(設(shè)計)人: | 程永新;胡永;李京龍 | 申請(專利權(quán))人: | 上海新炬網(wǎng)絡(luò)信息技術(shù)股份有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24 |
| 代理公司: | 上海科律專利代理事務(wù)所(特殊普通合伙) 31290 | 代理人: | 袁亞軍;金碎平 |
| 地址: | 201707 上海市青浦區(qū)外青*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分布式 hadoop 集群 故障 自動 診斷 修復(fù) 系統(tǒng) | ||
1.一種分布式hadoop集群故障自動診斷修復(fù)系統(tǒng),其特征在于,包括:
集群文件系統(tǒng)監(jiān)控模塊:采集獲取集群節(jié)點信息以及數(shù)據(jù)庫文件;
作業(yè)任務(wù)監(jiān)控模塊:采集作業(yè)和任務(wù)的信息,并對作業(yè)任務(wù)進(jìn)行控制管理,包括作業(yè)的開啟和停止,對指定作業(yè)進(jìn)行周期采樣,以及對任務(wù)優(yōu)先級進(jìn)行管理;
物理節(jié)點監(jiān)控模塊:監(jiān)控每個物理節(jié)點的資源消耗信息;
數(shù)據(jù)存儲分析處理模塊:對來自所述集群文件系統(tǒng)監(jiān)控模塊、作業(yè)任務(wù)監(jiān)控模塊和物理節(jié)點監(jiān)控模塊的監(jiān)控數(shù)據(jù)進(jìn)行結(jié)構(gòu)化、統(tǒng)一化后存儲到數(shù)據(jù)庫;設(shè)定監(jiān)控告警規(guī)則,預(yù)先配置告警ID、級別及原因;
自動修復(fù)模塊:預(yù)先定義配置各類常見告警故障,并為每個告警故障定制預(yù)處理腳本,當(dāng)所述數(shù)據(jù)存儲分析處理模塊監(jiān)控巡檢到故障發(fā)生時,對當(dāng)前發(fā)生的故障與預(yù)先定義配置的告警故障進(jìn)行匹配,并調(diào)用相應(yīng)的預(yù)處理腳本完成故障的自動處理;
所述作業(yè)任務(wù)監(jiān)控模塊實時查看任務(wù)的信息,包括任務(wù)的狀態(tài)、運行任務(wù)的開始和結(jié)束時間,任務(wù)的運行速度及任務(wù)所消耗的時間,記錄整個任務(wù)運行日志,統(tǒng)計任務(wù)數(shù)目和條目;
所述數(shù)據(jù)存儲分析處理模塊包括:設(shè)置熱點問題告警,對熱點問題進(jìn)行優(yōu)先監(jiān)控,同時建立預(yù)測模型,對故障進(jìn)行預(yù)測;
所述數(shù)據(jù)存儲分析處理模塊對海量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分類和聚類、設(shè)定集群告警相關(guān)性,并根據(jù)關(guān)聯(lián)規(guī)則對監(jiān)控數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,定位故障所在。
2.如權(quán)利要求1所述的分布式hadoop集群故障自動診斷修復(fù)系統(tǒng),其特征在于,所述集群文件系統(tǒng)監(jiān)控模塊包括:瀏覽文件記錄、namenode日志記錄、namenode運行情況、集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活節(jié)點數(shù)、死節(jié)點數(shù)、namenode的存儲目錄及類型狀態(tài)。
3.如權(quán)利要求1所述的分布式hadoop集群故障自動診斷修復(fù)系統(tǒng),其特征在于,所述集群文件系統(tǒng)監(jiān)控模塊包括:獲取HDFS的實時數(shù)據(jù)和歷史狀態(tài),根據(jù)HDFS信息瀏覽和定位相關(guān)文件,以及監(jiān)控關(guān)閉或者打開所述相關(guān)文件時,各個磁盤已經(jīng)使用和各個磁盤的總?cè)萘浚S嗳萘浚募Q和數(shù)目,以及文件的使用情況和歷程。
4.如權(quán)利要求1所述的分布式hadoop集群故障自動診斷修復(fù)系統(tǒng),其特征在于,所述作業(yè)任務(wù)監(jiān)控模塊控制集群任務(wù)概要信息,堆的大小,所占的比例,Map任務(wù)數(shù),Reduce任務(wù)數(shù)以及各個節(jié)點上的任務(wù)數(shù)量值。
5.如權(quán)利要求1所述的分布式hadoop集群故障自動診斷修復(fù)系統(tǒng),其特征在于,所述作業(yè)任務(wù)監(jiān)控模塊實時查看作業(yè)的狀態(tài),查詢整個作業(yè)從開始工作到結(jié)束工作耗費的時間總和,對與指定任務(wù)的作業(yè)相關(guān)信息,顯示完成的所有進(jìn)度、總共要進(jìn)行的任務(wù)總數(shù)、預(yù)計需要完成的任務(wù)數(shù)量、當(dāng)前正在運行的任務(wù)數(shù)量、到目前為止已經(jīng)完成的任務(wù)、沒有成功運行的任務(wù)和已經(jīng)終止的任務(wù)。
6.如權(quán)利要求1所述的分布式hadoop集群故障自動診斷修復(fù)系統(tǒng),其特征在于,所述物理節(jié)點監(jiān)控模塊對hadoop集群中全部物理機進(jìn)行分組,監(jiān)控每個物理節(jié)點平均內(nèi)存和CPU負(fù)載,并對物理節(jié)點之間監(jiān)控信息共享。
7.如權(quán)利要求1所述的分布式hadoop集群故障自動診斷修復(fù)系統(tǒng),其特征在于,還包括設(shè)置WEB界面對所述集群文件系統(tǒng)監(jiān)控模塊、作業(yè)任務(wù)監(jiān)控模塊、物理節(jié)點監(jiān)控模塊、數(shù)據(jù)存儲分析處理模塊以及自動修復(fù)模塊的采集監(jiān)控過程進(jìn)行可視化展示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海新炬網(wǎng)絡(luò)信息技術(shù)股份有限公司,未經(jīng)上海新炬網(wǎng)絡(luò)信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510650975.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種實現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計算的Hadoop平臺度量方法
- 云環(huán)境中模型驅(qū)動的Hadoop部署方法
- 基于麒麟云計算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲介質(zhì)
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應(yīng)用方法
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計算機介質(zhì)
- 混合云場景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計算機存儲介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲介質(zhì)





