[發(fā)明專利]一種基于變長記錄的安全日志壓縮存儲和檢索方法有效
| 申請?zhí)枺?/td> | 201811035532.3 | 申請日: | 2018-09-06 |
| 公開(公告)號: | CN109165144B | 公開(公告)日: | 2023-06-13 |
| 發(fā)明(設計)人: | 陳虎;唐開達 | 申請(專利權)人: | 南京聚銘網(wǎng)絡科技有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F16/13;G06F16/14;G06F16/174;G06F16/18 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司 32206 | 代理人: | 杜靜靜 |
| 地址: | 210032 江蘇省南京市雨花*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 變長 記錄 安全 日志 壓縮 存儲 檢索 方法 | ||
本發(fā)明涉及一種基于變長記錄的安全日志壓縮存儲和檢索方法,所述方法包括以下步驟:步驟一:站點頁面地圖生成;步驟二:頁面快照制作;步驟三:頁面敏感字詞的抽取和比對;步驟四:頁面特征對比學習;步驟五:高頻頁面監(jiān)測;步驟六:低頻頁面監(jiān)測;步驟七:備份余恢復機制。該方法充分地利用了歷史上對日志的解析結果,獲取各類設備的不同模式在整體上的分布情況,為壓縮編碼提供實際依據(jù)。
技術領域
本發(fā)明涉及一種方法,具體涉及一種基于變長記錄的安全日志壓縮存儲和檢索方法,屬于日志存儲管理技術領域。
背景技術
日志(Log);
一般而言,所謂日志是由各類網(wǎng)絡系統(tǒng)、安全系統(tǒng)、操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、應用系統(tǒng)等生成的,能夠記錄相關系統(tǒng)運行狀態(tài)的數(shù)據(jù)集,它可以成為對相關行為追溯的關鍵信息;日志可以被劃分為若干類別以區(qū)分之間的不同,如用戶登錄、網(wǎng)絡連接、主機進程運行等;相關劃分依據(jù)可參見國家標準。
日志審計管理系統(tǒng)(Log?Audit?and?Management?System);
日志審計管理系統(tǒng)一般是用以收集相關日志信息并進行存儲、統(tǒng)計及關聯(lián)等處理;日志審計管理系統(tǒng)的日志收集方式主要包括兩種模式:
被動方式:如Syslog、SNMP?Trap、Netflow/sflow、交換機鏡像等
主動方式:WMI方式(主要用于Windows)、數(shù)據(jù)庫主動連接等
這類系統(tǒng)又被稱作SIEMS(Security?Information?Event?Management?System),國際上的代表產品包括HP?Arcsight、Splunk等;國內主要的安全廠商均提供類似的系統(tǒng)。
自有日志審計管理系統(tǒng)這類產品以來,日志的壓縮存儲、檢索就一直是核心問題,而且一般都經(jīng)歷過相似的發(fā)展過程,如最初的日志信息被存儲在關系型數(shù)據(jù)庫(RDBMS)中,如Oracle、Sybase或Microsoft?SQLServer等,使用關系型數(shù)據(jù)的優(yōu)點和缺點都是非常明確的,其優(yōu)點主要是編程、查詢接口簡單,但其缺點也非常明顯,主要就是使用此類技術無法應對日益增長的數(shù)據(jù)數(shù)量,特別是在當前大數(shù)據(jù)時代則完全是無法使用的,因為關系型數(shù)據(jù)在處理海量數(shù)據(jù)有著天然的劣勢,其在每日上幾十億的數(shù)據(jù)面前表現(xiàn)的無能為力。
目前,主流的日志審計管理系統(tǒng)均是采用NoSQL方式來存儲和檢索相關日志信息,如采用Hadoop、ElasticSearch等,但隨之帶來的問題是巨量日志的存儲也消耗了大量的磁盤存儲,畢竟需要投入大量資金在存儲的采購上,而且寫入磁盤的數(shù)據(jù)越多則越約或延遲系統(tǒng)的性能,其主要原因是I/O?Wait較大,故長久以來日志的壓縮存儲及從壓縮數(shù)據(jù)中還原數(shù)據(jù)就成為此類系統(tǒng)的主要議題;業(yè)界一般對于此類問題主要有以下兩種壓縮方法(當然還有其它方式,但并非主流技術):
采用通用壓縮方法:即對冷數(shù)據(jù)(Cold?Data,如一個月前)或溫數(shù)據(jù)(Warm?Data,一般為7日前)采用通用的數(shù)據(jù)壓縮方式,如RAR、ZIP、GZIP等進行壓縮;采用此方法的好處在于由于方法是通用的,故不需要附加過多編碼,可以快速實現(xiàn)數(shù)據(jù)壓縮功能而且可以視情況采用不同的壓縮比,但其問題也是比較明顯的,即在使用這些冷數(shù)據(jù)或溫數(shù)據(jù)時需要預先解壓縮,這需要消耗一定時間,對用戶的影響較大,而且在數(shù)據(jù)壓縮和解壓時均需消耗大量的CPU時間;
采用模式編碼方法:目前比較先進的日志管理系統(tǒng)均采用類似技術,其主要思想是由于在日志中存在大量重復的數(shù)據(jù),系統(tǒng)對這些數(shù)據(jù)采用一些固定的編碼以壓縮數(shù)據(jù)的存儲,不過基本的方法均在于對原始日志的分詞(一般使用英文分詞),然后對詞頻進行統(tǒng)計,根據(jù)詞頻生成不同的編碼,編碼可采用定長(2字節(jié))或變長方式(1字節(jié)或2字節(jié)),但這類方式其實對于CPU的消耗仍然比較巨大,另外在導出這些原始日志時,還原的操作也會消耗大量CPU的計算資源;另外此種方法在處理超長日志且僅含少量變化部分的數(shù)據(jù)或含有大量短單詞時,其壓縮率仍然不高,具體可參見下文中的相關內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京聚銘網(wǎng)絡科技有限公司,未經(jīng)南京聚銘網(wǎng)絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811035532.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





