[發(fā)明專利]一種對ceph集群進(jìn)行監(jiān)控和告警的系統(tǒng)及方法在審
| 申請?zhí)枺?/td> | 202010057439.3 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111290909A | 公開(公告)日: | 2020-06-16 |
| 發(fā)明(設(shè)計)人: | 李敏;蔡衛(wèi)衛(wèi);謝濤濤;宋偉 | 申請(專利權(quán))人: | 山東匯貿(mào)電子口岸有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30 |
| 代理公司: | 濟(jì)南信達(dá)專利事務(wù)所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山東省濟(jì)南市*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 ceph 集群 進(jìn)行 監(jiān)控 告警 系統(tǒng) 方法 | ||
本發(fā)明公開了一種對ceph集群進(jìn)行監(jiān)控和告警的系統(tǒng)及方法,屬于云計算技術(shù)領(lǐng)域。本發(fā)明的對ceph集群進(jìn)行監(jiān)控和告警的系統(tǒng),包括狀態(tài)采集模塊、數(shù)據(jù)分析模塊和告警推送模塊,狀態(tài)采集模塊用于周期性采集ceph集群狀態(tài),數(shù)據(jù)分析模塊用于分析收集狀態(tài)采集模塊采集的ceph集群狀態(tài)信息,告警推送模塊用于將告警信息發(fā)送至運維人員。該發(fā)明的對ceph集群進(jìn)行監(jiān)控和告警的系統(tǒng)在故障發(fā)生后能夠及時通知到運維人員,幫助運維人員迅速判斷故障緊急性,提升運維效率,具有很好的推廣應(yīng)用價值。
技術(shù)領(lǐng)域
本發(fā)明涉及云計算技術(shù)領(lǐng)域,具體提供一種對ceph集群進(jìn)行監(jiān)控和告警的系統(tǒng)及方法。
背景技術(shù)
ceph是一種分布式存儲系統(tǒng),具有高性能、高可用性、高可擴(kuò)展性以及特性豐富等特點。ceph支持三種調(diào)用接口,分別為對象存儲、塊存儲和文件存儲,在虛擬化領(lǐng)域里,比較常用到的是ceph的塊設(shè)備存儲,比如在OpenStack項目里,ceph的塊設(shè)備存儲可以對接OpenStack的cinder后端存儲。ceph相比其它存儲的優(yōu)勢點在于在實現(xiàn)存儲功能的同時還充分利用了存儲節(jié)點上的計算能力,在存儲數(shù)據(jù)時,都會通過特有的CRUSH算法計算得出該數(shù)據(jù)存儲的位置,盡量將數(shù)據(jù)分布均衡,同時可以由管理員自行定義存儲副本數(shù),使得它不存在傳統(tǒng)的單點故障的問題。ceph的核心組件包括ceph OSD、ceph monitor和ceph MDS。ceph OSD的主要功能是存儲、復(fù)制以及平衡數(shù)據(jù)等,OSD之間會進(jìn)行心跳檢查并將組件的變化情況上報到ceph monitor;ceph monitor的主要功能為監(jiān)控ceph集群,維護(hù)cpeh集群健康狀態(tài),同時維護(hù)集群的map信息;ceph MDS的主要功能為保存文件系統(tǒng)服務(wù)的元數(shù)據(jù),該組件只有用到文件存儲時才需要使用。
在ceph的luminous版本中增加了一個組件:ceph mgr(Ceph Manager Daemon)。該組件的主要功能是分擔(dān)和擴(kuò)展了ceph monitor的一些功能,減小其工作壓力,同時提供外部監(jiān)控管理系統(tǒng)的接口。ceph mgr提供了一個名為prometheus的插件,實現(xiàn)了與監(jiān)控軟件prometheus的接口,可以將ceph mgr收集的ceph集群信息傳遞到prometheus中進(jìn)行監(jiān)控。
在ceph集群運行過程中,慢請求是一種常見的告警信息,其現(xiàn)象為:如果某個cephOSD對一個請求響應(yīng)很慢,那么會生成日志信息說明請求耗費的時間過長。ceph集群發(fā)生慢請求時可能會造成集群性能下降,持續(xù)時間過長甚至?xí)斐蒾sd down的現(xiàn)象,影響用戶使用。雖然ceph集群可以發(fā)現(xiàn)慢請求的現(xiàn)象并打印出日志,但是對于管理員來說并不能及時發(fā)現(xiàn)故障,在實際生產(chǎn)中可能影響業(yè)務(wù)運行。傳統(tǒng)運維過程中通常在出現(xiàn)運行業(yè)務(wù)受到影響或ceph集群出現(xiàn)其他故障時管理員才會進(jìn)入環(huán)境查看ceph集群的健康狀態(tài),從而發(fā)現(xiàn)存在慢請求的故障,再進(jìn)行恢復(fù)。但是這種方法不夠及時高效,無法實現(xiàn)對ceph業(yè)務(wù)的有效監(jiān)控和管理。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是針對上述存在的問題,提供一種在故障發(fā)生后能夠及時通知到運維人員,幫助運維人員迅速判斷故障緊急性,提升運維效率的對ceph集群進(jìn)行監(jiān)控和告警的系統(tǒng)。
本發(fā)明進(jìn)一步的技術(shù)任務(wù)是提供一種對ceph集群進(jìn)行監(jiān)控和告警的方法。
為實現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
一種對ceph集群進(jìn)行監(jiān)控和告警的系統(tǒng),包括狀態(tài)采集模塊、數(shù)據(jù)分析模塊和告警推送模塊,狀態(tài)采集模塊用于周期性采集ceph集群狀態(tài),數(shù)據(jù)分析模塊用于分析收集狀態(tài)采集模塊采集的ceph集群狀態(tài)信息,告警推送模塊用于將告警信息發(fā)送至運維人員。
作為優(yōu)選,所述狀態(tài)采集模塊周期性的采集ceph集群的狀態(tài)信息,對采集的ceph集群的狀態(tài)信息進(jìn)行篩選,篩選出關(guān)于慢請求的信息,上報至數(shù)據(jù)分析模塊。
作為優(yōu)選,狀態(tài)采集模塊對采集到的ceph集群的狀態(tài)信息按照時間序列進(jìn)行保存。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東匯貿(mào)電子口岸有限公司,未經(jīng)山東匯貿(mào)電子口岸有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010057439.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種通過Zabbix監(jiān)控Ceph集群的方法
- 一種實現(xiàn)Ceph集群融合的方法及裝置
- 一種Ceph分布式存儲系統(tǒng)的資源限制及分配方法
- 數(shù)據(jù)處理方法和裝置
- 一種基于Ceph的跨數(shù)據(jù)中心Oracle高可用實現(xiàn)方法
- 一種基于librbd庫測試rbd上傳速度的方法
- 管理ceph集群的方法及云本地存儲協(xié)調(diào)器
- 一種單機(jī)KVM虛擬化下快速部署多節(jié)點Ceph集群的方法和系統(tǒng)
- 一種分布式存儲集群的自動化部署方法
- 一種OpenPOWER平臺上CEPH系統(tǒng)的使用方法及相關(guān)組件
- 一種集群調(diào)度呼叫業(yè)務(wù)中主叫終端信息顯示方法
- 更新網(wǎng)絡(luò)流量管理設(shè)備同時維持有效性
- 與集群調(diào)度系統(tǒng)進(jìn)行通信的方法、群集接入網(wǎng)關(guān)及系統(tǒng)
- 一種管理集群通信系統(tǒng)資源的方法
- 基于Kubernetes和OpenStack容器云平臺多集群構(gòu)建方法、介質(zhì)、設(shè)備
- 一種容災(zāi)系統(tǒng)、容災(zāi)處理方法、監(jiān)控節(jié)點和備份集群
- 一種ETCD集群恢復(fù)方法、系統(tǒng)、設(shè)備及計算機(jī)介質(zhì)
- 混合云場景下保證可用集群數(shù)量的方法、裝置及系統(tǒng)
- 一種集群拓?fù)涓路椒ā⑾到y(tǒng)、設(shè)備及計算機(jī)存儲介質(zhì)
- 集群切換方法、集群切換裝置、電子設(shè)備及可讀存儲介質(zhì)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 一種范圍廣、力度大的校內(nèi)監(jiān)控系統(tǒng)
- 一種監(jiān)控的方法及系統(tǒng)
- 設(shè)備的監(jiān)控方法、裝置、系統(tǒng)和空調(diào)
- 多級校內(nèi)監(jiān)控系統(tǒng)
- 設(shè)備監(jiān)控方法、裝置、計算機(jī)設(shè)備及存儲介質(zhì)
- 風(fēng)險雷達(dá)預(yù)警的監(jiān)控方法及系統(tǒng)
- 區(qū)塊鏈網(wǎng)絡(luò)監(jiān)控系統(tǒng)、裝置及方法
- 基于機(jī)器視覺的車站客流安全智能監(jiān)控系統(tǒng)





