[發(fā)明專利]一種網(wǎng)站日志壓縮方法及裝置有效
| 申請?zhí)枺?/td> | 202110487122.8 | 申請日: | 2021-05-04 |
| 公開(公告)號: | CN113297154B | 公開(公告)日: | 2022-05-17 |
| 發(fā)明(設(shè)計)人: | 李傳詠;盧穎;趙莉;陳寧;李玲 | 申請(專利權(quán))人: | 西安博達(dá)軟件股份有限公司 |
| 主分類號: | G06F16/174 | 分類號: | G06F16/174;G06F16/18 |
| 代理公司: | 北京麥匯智云知識產(chǎn)權(quán)代理有限公司 11754 | 代理人: | 吳云 |
| 地址: | 710000 陜西省西安市高*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)站 日志 壓縮 方法 裝置 | ||
本發(fā)明提出了一種網(wǎng)站日志壓縮方法及裝置,涉及數(shù)據(jù)壓縮領(lǐng)域。一種網(wǎng)站日志壓縮方法,其包括如下步驟:對待壓縮網(wǎng)站日志中每個字段的類型進(jìn)行判斷,以得到類型判斷結(jié)果。根據(jù)類型判斷結(jié)果,將每個字段分別輸入至對應(yīng)的預(yù)置模型中,以得到每個字段的字段壓縮結(jié)果。建立每個字段壓縮結(jié)果的位置索引,以得到日志壓縮結(jié)果。該網(wǎng)站日志壓縮方法及裝置考慮到了不同類型的字段的不同特性,針對字段的不同特性,對不同類型的日志文件進(jìn)行不同的壓縮處理,則可以大幅提高待壓縮網(wǎng)站日志的壓縮率,達(dá)到較好的壓縮效果,進(jìn)而大幅減少服務(wù)器的存儲空間和通信的帶寬及時間,減少了日志壓縮結(jié)果的傳輸時間。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)壓縮領(lǐng)域,具體而言,涉及一種網(wǎng)站日志壓縮方法及裝置。
背景技術(shù)
數(shù)據(jù)壓縮技術(shù)是一種用最盡可能少的數(shù)據(jù)來表示原始信號數(shù)據(jù)的技術(shù)。由于信息化、數(shù)據(jù)化、網(wǎng)絡(luò)化的快速發(fā)展,各種形式的數(shù)據(jù)量特別龐大,因此,數(shù)據(jù)壓縮技術(shù)已成為當(dāng)今計算機(jī)和通信、存儲和多媒體娛樂中的一項關(guān)鍵的共性技術(shù)。
數(shù)據(jù)壓縮算法主要有兩大類:有損壓縮和無損壓縮。有損數(shù)據(jù)壓縮算法通常通過刪除需要大量保真數(shù)據(jù)的小細(xì)節(jié),從而減少文件的大小。在有損數(shù)據(jù)壓縮中,由于刪除了基本數(shù)據(jù),不可能恢復(fù)原始文件。而無損數(shù)據(jù)壓縮是使文件的大小減少,這樣一個解壓函數(shù)完全可以恢復(fù)原始文件,不會造成數(shù)據(jù)丟失。無損數(shù)據(jù)壓縮在計算機(jī)中無處不在,可以節(jié)省計算機(jī)的存儲空間。
無損壓縮算法的基本原理是:任意一個非隨機(jī)文件都含重復(fù)數(shù)據(jù),這些重復(fù)數(shù)據(jù)可以通過用來確定字符或短語出現(xiàn)概率的統(tǒng)計建模技術(shù),進(jìn)行壓縮。運用這些技術(shù)以及其它技術(shù),一個8-bit長度的字符或者字符串可以用很少的bit來表示,從而大量的重復(fù)數(shù)據(jù)被移除。典型的壓縮算法包括:字典類的LZ77(1977)系列和LZ78(1978)系列,以及其他方式的PPM(1984)和BZIP2(1996)。
目前,大部分壓縮算法基本上都將壓縮對象看成一個字符序列進(jìn)行算法的處理。現(xiàn)有的壓縮算法忽略了被壓縮對象的特性,在無損壓縮算法的實際應(yīng)用中,特別是在網(wǎng)絡(luò)化、信息化的實踐中,使用通用的數(shù)據(jù)無損壓縮算法處理大量的網(wǎng)站訪問日志,將占用相對較多的存儲空間和通信的帶寬和時間,并不能達(dá)到很好的壓縮效果。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種網(wǎng)站日志壓縮方法及裝置,用以改善現(xiàn)有技術(shù)中使用無損壓縮算法處理大量網(wǎng)站訪問日志,將占用相對較多的存儲空間和通信的帶寬和時間,不能達(dá)到很好的壓縮效果的問題。
本發(fā)明的實施例是這樣實現(xiàn)的:
第一方面,本申請實施例提供一種網(wǎng)站日志壓縮方法,其包括如下步驟:對待壓縮網(wǎng)站日志中每個字段的類型進(jìn)行判斷,以得到類型判斷結(jié)果。根據(jù)類型判斷結(jié)果,將每個字段分別輸入至對應(yīng)的預(yù)置模型中,以得到每個字段的字段壓縮結(jié)果。建立每個字段壓縮結(jié)果的位置索引,以得到日志壓縮結(jié)果。
在本發(fā)明的一些實施例中,上述對待壓縮網(wǎng)站日志中每個字段的類型進(jìn)行判斷的步驟之前,該網(wǎng)站日志壓縮方法還包括:獲取待壓縮網(wǎng)站日志。
在本發(fā)明的一些實施例中,上述將每個字段分別輸入至對應(yīng)的預(yù)置模型中的步驟之后,該網(wǎng)站日志壓縮方法還包括:當(dāng)類型判斷結(jié)果為第一類型時,將字段輸入至第一模型中。統(tǒng)計字段中每個不同行內(nèi)容的重復(fù)次數(shù),以得到重復(fù)次數(shù)。根據(jù)重復(fù)次數(shù),對每個不同行內(nèi)容進(jìn)行編碼,以得到第一編碼結(jié)果。利用第一編碼結(jié)果替換字段的行內(nèi)容,以得到第一數(shù)據(jù)流。
在本發(fā)明的一些實施例中,上述將每個字段分別輸入至對應(yīng)的預(yù)置模型中的步驟之后,該網(wǎng)站日志壓縮方法還包括:當(dāng)類型判斷結(jié)果為第二類型時,將字段輸入至第二模型中。將字段的每個行內(nèi)容分為第一字符串和第二字符串,統(tǒng)計每個第一字符串的重復(fù)數(shù)量,以得到重復(fù)數(shù)量。根據(jù)重復(fù)數(shù)量,對每個第一字符串進(jìn)行編碼,以得到第二編碼結(jié)果。利用第二編碼結(jié)果替換第一字符串,以得到第二數(shù)據(jù)流。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安博達(dá)軟件股份有限公司,未經(jīng)西安博達(dá)軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110487122.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 與HTTP網(wǎng)站關(guān)聯(lián)的WAP網(wǎng)站
- 基于網(wǎng)站指紋推送白名單的方法及系統(tǒng)
- 網(wǎng)站漏洞檢測方法和系統(tǒng)
- 一種網(wǎng)站建立方法、裝置及計算設(shè)備
- 一種網(wǎng)站識別方法及裝置
- 網(wǎng)站風(fēng)險評估方法及裝置
- 網(wǎng)站版權(quán)時間的管理方法、裝置、存儲介質(zhì)及設(shè)備
- 一種網(wǎng)站開發(fā)系統(tǒng)及方法
- 一種基于網(wǎng)站地圖的指紋識別方法
- 網(wǎng)站應(yīng)用框架指紋識別的方法、設(shè)備、裝置及介質(zhì)





