[發(fā)明專利]基于Spark的大數(shù)據(jù)網(wǎng)絡(luò)日志采集分析和預(yù)警的方法、系統(tǒng)在審
| 申請?zhí)枺?/td> | 201810732720.5 | 申請日: | 2018-07-05 |
| 公開(公告)號: | CN110690984A | 公開(公告)日: | 2020-01-14 |
| 發(fā)明(設(shè)計)人: | 易可可;汪潮;王威 | 申請(專利權(quán))人: | 上海寶信軟件股份有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L29/08 |
| 代理公司: | 31236 上海漢聲知識產(chǎn)權(quán)代理有限公司 | 代理人: | 莊文莉 |
| 地址: | 200120 上海市浦*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 日志分析 原始文件 日志 日志數(shù)據(jù) 網(wǎng)站 數(shù)據(jù)邏輯處理模塊 預(yù)警 采集 讀取 存儲日志數(shù)據(jù) 日志采集模塊 日志存儲模塊 并行計算 存儲模塊 存儲日志 獲取模塊 快速分析 離線處理 實時處理 網(wǎng)絡(luò)日志 相關(guān)信息 預(yù)警模塊 預(yù)警提示 運營效率 大數(shù)據(jù) 故障點 可視化 運維 展示 分析 安全 | ||
本發(fā)明提供了一種基于Spark的大數(shù)據(jù)網(wǎng)絡(luò)日志采集分析和預(yù)警的方法、系統(tǒng),包括:日志原始文件獲取模塊(101):采集日志原始文件;日志采集模塊(102):根據(jù)所述日志原始文件獲得日志數(shù)據(jù);日志存儲模塊(103):存儲日志數(shù)據(jù);數(shù)據(jù)邏輯處理模塊(104):進行日志數(shù)據(jù)分析和并行計算,得到日志分析結(jié)果;分析結(jié)果存儲模塊(105):存儲日志分析結(jié)果;可視化展示和預(yù)警模塊(106):讀取所述日志分析結(jié)果,展示所述日志分析結(jié)果或/和發(fā)出運維預(yù)警提示。本發(fā)明將實時處理和離線處理相結(jié)合,能夠方便的對本網(wǎng)站相關(guān)信息快速分析和預(yù)警,避免花大量時間去尋找故障點,提高了運營效率,保障了網(wǎng)站的穩(wěn)定和安全。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體地,涉及基于Spark的大數(shù)據(jù)網(wǎng)絡(luò)日志采集分析和預(yù)警的方法、系統(tǒng)。
背景技術(shù)
目前,現(xiàn)有專利保護的方案中只提出了基于Hadopp/Hive技術(shù)進行離線數(shù)據(jù)的分析,而并未給出在線數(shù)據(jù)怎么采集和分析,以及怎么預(yù)警的方法。實際工作中,互聯(lián)網(wǎng)企業(yè)在網(wǎng)絡(luò)日志采集和分析中,會碰到實時數(shù)據(jù)流實時處理和離線數(shù)據(jù)批量處理兩種方式,兩種模式混合出現(xiàn),所以要求我們的日志系統(tǒng)具備面對海量的網(wǎng)絡(luò)日志能夠進行實時處理和離線處理,具備高吞吐能力和高容錯性。碰到緊急情況馬上預(yù)警,讓人工進行維護和干預(yù)。
例如,專利文獻CN104298771A(申請?zhí)?01410596395.6)公開了一種海量web日志數(shù)據(jù)查詢與分析方法,其利用Hadoop/Hive分布式計算平臺的高可靠性、高擴展性、高效性以及高容錯性,包括以下步驟:對各個數(shù)據(jù)源的數(shù)據(jù)進行解析;將數(shù)據(jù)裝載進數(shù)據(jù)倉庫中;接收HiveQL語句;對接受語句進行優(yōu)化,得到初步map結(jié)果;將接受語句轉(zhuǎn)換成MapReduce任務(wù)執(zhí)行并存儲查詢結(jié)果;數(shù)據(jù)分割;對數(shù)據(jù)進行分析挖掘;將數(shù)據(jù)裝載進Mysql數(shù)據(jù)庫中。該專利文獻針對海量的web日志數(shù)據(jù),實現(xiàn)精確地查詢和數(shù)據(jù)分析,既能實現(xiàn)海量數(shù)據(jù)存儲查詢分析的可擴展性和高效性,也避免數(shù)據(jù)傾斜帶來的job分布不均整體性能下降的問題。
該專利文獻為利用Hadoop/Hive進行日志數(shù)據(jù)的采集和查詢分析,只能進行離線數(shù)據(jù)的處理,未涉及大批量實時數(shù)據(jù)的處理,以及后續(xù)的預(yù)警展現(xiàn)和通知。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種基于Spark的大數(shù)據(jù)網(wǎng)絡(luò)日志采集分析和預(yù)警的方法、系統(tǒng)。
根據(jù)本發(fā)明提供的一種基于Spark的大數(shù)據(jù)網(wǎng)絡(luò)日志采集分析和預(yù)警的系統(tǒng),包括:
日志原始文件獲取模塊:采集日志原始文件;
日志采集模塊:根據(jù)所述日志原始文件獲得日志數(shù)據(jù);
日志存儲模塊:存儲日志數(shù)據(jù);
數(shù)據(jù)邏輯處理模塊:進行日志數(shù)據(jù)分析,得到日志分析結(jié)果;
分析結(jié)果存儲模塊:存儲日志分析結(jié)果;
可視化展示和預(yù)警模塊:讀取所述日志分析結(jié)果,展示所述日志分析結(jié)果或/和發(fā)出運維預(yù)警提示。
優(yōu)選地,日志原始文件包括Tomcat應(yīng)用日志、系統(tǒng)日志、外部接口日志,所述日志原始文件記錄了原始信息;原始信息包括網(wǎng)站原始的訪問信息,還包括操作系統(tǒng)信息、CPU信息、內(nèi)存信息、硬盤信息,以及外部接口調(diào)用時間響應(yīng)信息。
優(yōu)選地,日志采集模塊采用Apache Flume技術(shù)采集日志數(shù)據(jù),在Flume集群中,以代理Agent作為一個獨立運行的最小單位,所述代理Agent包括:傳輸數(shù)據(jù)源Source、傳輸通道Channel、數(shù)據(jù)匯聚點Sink,所述數(shù)據(jù)匯聚點Sink包括Kafka消息集群數(shù)據(jù)匯聚點KafkaSink和HDFS分布式文件系統(tǒng)數(shù)據(jù)匯聚點HDFS Sink;
將實時數(shù)據(jù)通過第一傳輸通道Channel A傳輸給Kafka Sink,將離線數(shù)據(jù)通過第二傳輸通道Channel B傳輸給HDFS Sink;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海寶信軟件股份有限公司,未經(jīng)上海寶信軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810732720.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種日志處理方法、裝置及數(shù)據(jù)庫系統(tǒng)
- 日志去重方法和系統(tǒng)、內(nèi)容分發(fā)網(wǎng)絡(luò)系統(tǒng)
- 一種基于Spark的應(yīng)用軟件運行日志的收集與服務(wù)處理系統(tǒng)及方法
- 一種網(wǎng)絡(luò)日志數(shù)據(jù)同步系統(tǒng)及方法
- 一種日志數(shù)據(jù)處理方法及系統(tǒng)
- 日志數(shù)據(jù)收集方法、日志數(shù)據(jù)收集裝置、存儲介質(zhì)和日志數(shù)據(jù)收集系統(tǒng)
- 一種電力信息系統(tǒng)多源日志數(shù)據(jù)處理方法
- 一種日志數(shù)據(jù)壓縮方法、裝置、設(shè)備和存儲介質(zhì)
- 一種日志數(shù)據(jù)收集方法及日志數(shù)據(jù)收集系統(tǒng)
- 計算機系統(tǒng)的日志數(shù)據(jù)處理方法





