[發明專利]日志文件壓縮及解壓縮方法、電子設備和可讀存儲介質有效
| 申請號: | 201711295681.9 | 申請日: | 2017-12-08 |
| 公開(公告)號: | CN107977442B | 公開(公告)日: | 2020-08-07 |
| 發明(設計)人: | 王雪峰 | 申請(專利權)人: | 北京希嘉創智教育科技有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/182;G06F16/174;G06F16/172 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100070 北京市豐臺區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 日志 文件 壓縮 解壓縮 方法 電子設備 可讀 存儲 介質 | ||
1.一種日志文件壓縮方法,包括:
將待壓縮的日志文件切分為子文件,所述日志文件的每一行數據記錄一個操作,所述子文件包括多個所述行;
將每個子文件分別作為一個壓縮任務送入壓縮任務池;
并行地執行所述壓縮任務池中的多個壓縮任務;
在所述壓縮任務池中的所有壓縮任務均完成后,將不同壓縮任務獲得的壓縮子文件合并成壓縮結果文件;
其中,逐行壓縮所述壓縮任務對應的子文件以獲取所述壓縮子文件;所述壓縮子文件的行數與所述子文件的行數一一對應;
逐行壓縮所述壓縮任務對應的子文件以獲取所述壓縮子文件包括:
讀取所述子文件的第一行數據,將所述第一行數據中的時間戳字段的位置信息存儲在元信息中;
逐行讀取所述子文件之后的各行數據,將讀取的當前行中的時間戳修改為與前一行數據中的時間戳的偏移量,并根據預定的壓縮算法壓縮修改后的當前行;
在所述子文件的所有行壓縮完成時輸出所述壓縮子文件并存儲。
2.根據權利要求1所述的日志文件壓縮方法,其特征在于,所述日志文件根據分布式文件系統的存儲形式進行切分;
所述壓縮結果文件根據分布式文件系統的存儲形式進行存儲。
3.根據權利要求2所述的日志文件壓縮方法,其特征在于,所述子文件的數量是根據所述待壓縮的日志文件的大小和所述分布式文件系統的存儲單元的大小計算的。
4.一種日志文件解壓縮方法,包括:
將待解壓的日志文件的所有子壓縮文件作為解壓縮任務送入解壓縮任務池;
并行地執行所述解壓縮任務池中的多個解壓縮任務,并根據計算任務統計計算所述子壓縮文件的日志數據,所述計算任務包括訪問量和用戶記錄;
在所述解壓縮任務池中的所有解壓縮任務均完成后,匯總所有子壓縮文件的計算任務結果,將獲取的總計算任務結果輸出;
其中,逐行解壓所述解壓縮任務對應的子壓縮文件以獲取解壓子文件,統計計算所述解壓子文件以獲取所述子壓縮文件的任務計算結果;所述子壓縮文件的行數與所述解壓子文件的行數一一對應;
逐行解壓縮所述解壓縮任務對應的子壓縮文件以獲取解壓子文件,統計計算所述解壓子文件以獲取所述子壓縮文件的任務計算結果包括:
根據預定的解壓縮算法解壓所述子壓縮文件的第一行數據,并根據元信息中的地址信息獲取所述第一行數據的時間戳;
根據預定的解壓縮算法逐行解壓所述子壓縮文件之后的各行數據;
根據時間戳偏移量恢復解壓的當前行時間戳;
根據計算任務統計計算所述當前行的日志數據;
在所述子壓縮文件的所有行解壓完成時,存儲獲得的解壓子文件,并匯總計算各行的計算結果以獲取所述子壓縮文件的計算任務結果。
5.根據權利要求4所述的日志文件解壓縮方法,其特征在于,所述待解壓日志文件的子壓縮文件根據分布式文件系統的存儲形式進行存儲。
6.一種電子設備,包括:
至少一個處理器;
存儲器,用于存儲所述處理器可執行的指令;
所述處理器被配置為執行如權利要求1-5中任一項所述的方法。
7.一種計算機可讀存儲介質,其上存儲計算機程序指令,其特征在于,所述計算機程序指令在被處理器執行時實現如權利要求1-5任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京希嘉創智教育科技有限公司,未經北京希嘉創智教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711295681.9/1.html,轉載請聲明來源鉆瓜專利網。





