[發明專利]海量日志實時分析系統、實時分析方法及可讀存儲介質在審
| 申請號: | 201811543513.1 | 申請日: | 2018-12-17 |
| 公開(公告)號: | CN109831316A | 公開(公告)日: | 2019-05-31 |
| 發明(設計)人: | 龔小剛;葉衛;許敏;秦楓;周旭祥;陳政波;樊華;劉晨陽;亓國濤;周晨軼;方晴程;徐海洋;趙建朋;謝裕清;陳珊;王嘉怡;陳澤堃;張鵬杰;張京倫;徐亦白 | 申請(專利權)人: | 國網浙江省電力有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L29/08 |
| 代理公司: | 杭州華鼎知識產權代理事務所(普通合伙) 33217 | 代理人: | 劉洋 |
| 地址: | 310000*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 工作模塊 可讀存儲介質 實時分析系統 海量日志 實時分析 處理速度信息 數據處理能力 數據流量信息 資源利用率 最大程度地 工作模板 計算能力 實時調整 實時計算 日志 | ||
本發明公開了一種海量日志實時分析系統、實時分析方法及可讀存儲介質,根據收集到的數據流量信息和處理速度信息確定每個工作模塊的最佳執行單元數量;若所述每個工作模塊的最佳執行單元數量與所述每個工作模塊的執行單元數量不相同,則按照所述最佳執行單元數量對所述每個工作模塊的執行單元數量進行調整。由于本發明通過獲取最優執行單元數量對工作模板中的執行單元數量進行實時調整,在計算能力有限的情況下能最大程度地提升日志實時計算的數據處理能力及資源利用率。
技術領域
本發明涉及分布式數據處理領域,尤其涉及一種海量日志實時分析系統、實時分析方法及計算機可讀存儲介質。
背景技術
當前,數據密集型業務已經得到了廣泛的應用,典型的數據密集型業務包括金融服務、網絡監控、電信數據管理、Web應用等等。對于電信行業來說,日志數據是非常重要的數據,日志是帶有時間戳且基于時間序列的機器數據,由設備和系統產生且種類不一,對于電信行業的信息系統,主要包括操作行為日志、設備運行日志、網絡訪問日志、運行維護日志等。日志數據里記錄了軟、硬件和生產環境的關鍵信息,如主機設備、網絡設備、業務系統等的運行情況和業務人員的網絡訪問行為。可以通過日志數據的分析監控系統運行狀況,定位存在的故障,為運維人員帶來非常大的便利。目前,電信行業的日志分析系統每天采集日志超過10億多條,高峰時期的日志采集量為每15分鐘超過1億條左右。
目前國內外常見的海量日志分析技術依靠Hadoop分布式計算平臺進行工作,Hadoop主要核心有分布式文件系統HDFS(Hadoop Distributed File System)和MapReduce(并行計算框架),作為一個分布式的計算框架,請參考圖1。在獲得日志數據之后,分布式計算平臺通過MapReduce進行日志解析過濾等處理,并將數據存儲在HDFS中,等待每項MapReduce任務執行完畢后,本地服務器從HDFS上下載分析結果,并展現在Web交互界面。這種方法的優點在于海量數據處理能力優越,但是對日志采用的是離線批處理,實時性較差。
發明內容
本發明解決的問題是提供一種海量日志實時分析系統、實時分析方法,對日志數據處理速度快,即使是高峰時間,也能及時的完成日志數據的處理。
為解決上述問題,本發明實施例提供了一種海量日志實時分析系統,包括:日志采集單元、日志分拆和存儲單元、實時計算統計單元,其中,
所述日志采集單元,對系統日志進行采集和預處理;
所述日志分拆和存儲單元,對采集到系統日志進行分拆,并存儲為日志數據;
所述實時計算統計單元,對接收到的日志數據進行實時計算,包括控制模塊和若干工作模塊,每一個工作模塊根據自身的執行單元數量,調用對應數目的執行單元來對接收到的日志數據進行實時計算;所述控制模塊,收集所述每個工作模塊的處理速度信息,以及具有邏輯上下游關系的工作模塊間的數據流量信息;根據收集到的數據流量信息和處理速度信息確定所述每個工作模塊的最佳執行單元數量;若所述每個工作模塊的最佳執行單元數量與所述每個工作模塊的執行單元數量不相同,則按照所述最佳執行單元數量對所述每個工作模塊的執行單元數量進行調整。
可選的,當一個工作模塊的最佳執行單元數量小于對應工作模塊的執行單元數量時,工作模塊根據對應的最佳執行單元數量為對應工作模塊刪除至少一個執行單元,或者,當一個工作模塊的最佳執行單元數量大于對應工作模塊的執行單元數量時,對應的工作模塊增加至少一個執行單元,使得對應工作模塊的當前的執行單元數量與所述工作模塊的最佳執行單元數量相同。
可選的,根據日志數據到達時間和日志數據平均處理時間來確定所述每個工作模塊的最佳執行單元數量;其中,所述日志數據到達時間表示日志數據到達所述每個工作模塊的時間,所述日志數據平均處理時間表示所述每個工作模塊的執行單元處理所述日志數據的平均時間。
可選的,所述工作節點的最佳執行單元數量等于所述日志數據平均處理時間與所述日志數據到達時間的比值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司,未經國網浙江省電力有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811543513.1/2.html,轉載請聲明來源鉆瓜專利網。





