[發明專利]日志關聯方法、裝置和應用其的計算機系統有效
| 申請號: | 201710205435.3 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN106951557B | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 王雪峰;裴燕青;徐磊;李強 | 申請(專利權)人: | 北京希嘉創智教育科技有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/13 |
| 代理公司: | 11597 北京睿派知識產權代理事務所(普通合伙) | 代理人: | 劉鋒 |
| 地址: | 100101 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 日志 關聯 方法 裝置 應用 計算機系統 | ||
公開了一種日志關聯方法、裝置和應用其的計算機系統,通過實時檢測日志文件/日志流的內容,提取增量內容,將被關聯的日志內容推送到鍵?值數據集,通過查詢鍵?值數據集實時對于新增加的日志流的內容進行關聯,由此,可以將海量日志關聯的時間復雜度降低到O(N),提高日志關聯速度。
技術領域
本發明涉及大數據處理領域,具體涉及一種日志關聯方法、裝置和應用其的計算機系統。
背景技術
在進行大數據分析的過程中,不同的業務系統或硬件設備的操作會不斷產生不同的日志文件,每個日志文件都標記著一類業務或一種硬件設備的工作狀況,例如上網URL日志用于記錄用戶上網訪問的所有URL情況;認證系統日志記錄所有認證信息等等。由于日志產生的獨立性,導致單獨對每個日志文件進行分析都有局限性,將2個或多個日志文件進行關聯之后進行分析變得非常具有價值。同時,由于日志文件具備數據量巨大的特點,因此使用一種有效的關聯日志的方法是非常必要的
目前常用的日志關聯方法是基于兩個或多個日志文件之間的關聯鍵(KEY)采用逐條循環處理的方式來實現。以兩個日志文件為例,其嵌套的多個循環來進行日志關聯:
這種關聯方式時間復復雜度很高,隨著合并的日志文件越來越多會大幅增加系統計算負擔,同時,由于需要嵌套循環,關聯速度較慢。
發明內容
有鑒于此,本發明提供一種日志關聯方法、裝置和應用其的計算機系統,以提高海量日志關聯的速度。
第一方面,提供一種日志關聯方法,用于將第二日志流的信息與第一日志流的信息關聯,所述方法包括:
實時獲取第一日志流的內容,提取第一日志流的增量記錄;
實時獲取N個第二日志流的內容,并將獲取的內容轉換加載到鍵-值數據集,其中N大于等于1;以及,
根據所述第一日志流的增量記錄的鍵對所述鍵-值數據集進行查詢并將查詢結果與對應的記錄關聯。
優選地,所述鍵-值數據集存儲在計算機內存中。
優選地,所述鍵-值數據集為基于Redis系統的數據集或基于memcached系統的數據集。
優選地,通過Flume系統實時獲取所述第一日志流和所述第二日志流的內容。
優選地,所述方法還包括:
將相互關聯的第一日志流的記錄和第二日志流的記錄合并后輸出。
第二反面,提供一種日志關聯裝置,用于將第二日志流的信息與第一日志流的信息關聯,所述日志關聯裝置包括:
第一獲取模塊,用于實時獲取第一日志流的內容,提取第一日志流的增量記錄;
第二獲取模塊,用于實時獲取N個第二日志流的內容,并將其轉換加入第一鍵-值數據集,N大于等于1;以及,
關聯模塊,根據所述第一日志流的增量記錄的鍵對所述第一鍵-值數據集進行查詢并將查詢結果與對應的記錄關聯。
優選地,所述鍵-值數據集存儲在計算機內存中。
優選地,所述鍵-值數據集為基于Redis系統的數據集或基于memcached系統的數據集。
優選地,所述裝置還包括:
輸出模塊,將相互關聯的第一日志流的記錄和第二日志流的記錄合并后輸出。
第三方面,提供一種計算機系統,包括:
一個或多個計算機處理器;
一個或多個計算機可讀存儲設備;以及
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京希嘉創智教育科技有限公司,未經北京希嘉創智教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710205435.3/2.html,轉載請聲明來源鉆瓜專利網。





