[發明專利]日志文件壓縮及解壓縮方法、電子設備和可讀存儲介質有效
| 申請號: | 201711295681.9 | 申請日: | 2017-12-08 |
| 公開(公告)號: | CN107977442B | 公開(公告)日: | 2020-08-07 |
| 發明(設計)人: | 王雪峰 | 申請(專利權)人: | 北京希嘉創智教育科技有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/182;G06F16/174;G06F16/172 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100070 北京市豐臺區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 日志 文件 壓縮 解壓縮 方法 電子設備 可讀 存儲 介質 | ||
本申請公開了一種日志文件壓縮及解壓縮方法、電子設備和計算機可讀存儲介質。所述日志文件壓縮方法通過將待壓縮日志文件切分為子文件,并行地逐行壓縮多個所述子文件,提高了壓縮效率和壓縮比,并且壓縮子文件與壓縮前的行數一一對應,提高后續的解壓縮效率。所述日志解壓縮方法通過并行地逐行解壓縮多個子壓縮文件,并在解壓縮的同時根據計算任務并行地計算統計日志數據,大大提高了解壓縮效率和計算效率。
技術領域
本申請涉及信息處理技術領域,具體地,涉及一種日志文件壓縮及解壓縮方法、電子設備和計算機可讀存儲介質。
背景技術
隨著大數據時代的來臨,數據也能像能源、材料一樣稱為戰略性資源。利用數據資源深挖創新,提升效益,是諸多企業追求的目標。互聯網所產生的大數據,主要來自于對互聯網的訪問日志。因此,存儲互聯網訪問日志的存儲成為關鍵。由于原始日志文件所占用的存儲空間過大,為了達到長期保存的目的,必須對原始日志文件進行壓縮。
現有技術中,存在有各種單進程的文件壓縮方法,但是由于日志文件體積巨大,依靠單進程的文件壓縮方法存在壓縮及解壓縮效率較低的問題。
發明內容
有鑒于此,本申請公開了一種日志文件壓縮及解壓縮方法、電子設備和計算機可讀存儲介質,以提高日志文件壓縮及解壓縮的效率、壓縮比和計算效率。
第一方面,提供一種日志文件壓縮方法,包括:
將待壓縮的日志文件切分為子文件,所述日志文件的每一行數據記錄一個操作,所述子文件包括多個所述行;
將每個子文件分別作為一個壓縮任務送入壓縮任務池;
并行地執行所述壓縮任務池中的多個壓縮任務;
在所述壓縮任務池中的所有壓縮任務均完成后,將不同壓縮任務獲得的壓縮子文件合并成壓縮結果文件;
其中,逐行壓縮所述壓縮任務對應的子文件以獲取所述壓縮子文件;所述壓縮子文件的行數與所述子文件的行數一一對應。
進一步地,逐行壓縮所述壓縮任務對應的子文件以獲取所述壓縮子文件包括:
讀取所述子文件的第一行數據,將所述第一行數據中的時間戳字段的位置信息存儲在元信息中;
逐行讀取所述子文件之后的各行數據,將讀取的當前行中的時間戳修改為與前一行數據中的時間戳的偏移量,并根據預定的壓縮算法壓縮修改后的當前行;
在所述子文件的所有行壓縮完成時輸出所述壓縮子文件并存儲。
進一步地,所述日志文件根據分布式文件系統的存儲形式進行切分;
所述壓縮結果文件根據分布式文件系統的存儲形式進行存儲。
進一步地,所述子文件的數量是根據所述待壓縮的日志文件的大小和所述分布式文件系統的存儲單元的大小計算的。
第二方面,提供一種日志文件解壓縮方法,包括:
將待解壓的日志文件的所有子壓縮文件作為解壓縮任務送入解壓縮任務池;
并行地執行所述解壓縮任務池中的多個解壓縮任務,并根據計算任務統計計算所述子壓縮文件的日志數據,所述計算任務包括訪問量和用戶記錄;
在所述解壓縮任務池中的所有解壓縮任務均完成后,匯總所有子壓縮文件的計算任務結果,將獲取的總計算任務結果輸出;
其中,逐行解壓所述解壓縮任務對應的子壓縮文件以獲取解壓子文件,統計計算所述解壓子文件以獲取所述子壓縮文件的任務計算結果;所述子壓縮文件的行數與所述解壓子文件的行數一一對應。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京希嘉創智教育科技有限公司,未經北京希嘉創智教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711295681.9/2.html,轉載請聲明來源鉆瓜專利網。





