[發(fā)明專利]一種面向高速HTTP網(wǎng)絡采集數(shù)據(jù)的壓縮方法有效
| 申請?zhí)枺?/td> | 201611040717.4 | 申請日: | 2016-11-10 |
| 公開(公告)號: | CN108076124B | 公開(公告)日: | 2020-05-26 |
| 發(fā)明(設計)人: | 葉曉舟;劉磊 | 申請(專利權)人: | 中國科學院聲學研究所;北京中科智網(wǎng)科技有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L29/06 |
| 代理公司: | 北京方安思達知識產(chǎn)權代理有限公司 11472 | 代理人: | 王宇楊;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 高速 http 網(wǎng)絡 采集 數(shù)據(jù) 壓縮 方法 | ||
本發(fā)明公開了一種面向高速HTTP網(wǎng)絡采集數(shù)據(jù)的壓縮方法,所述方法包括:網(wǎng)絡數(shù)據(jù)采集器進行HTTP數(shù)據(jù)采集接收,判斷HTTP數(shù)據(jù)是否在本地緩存,如果緩存則刪除該數(shù)據(jù)的載荷,使用緩存標識替代載荷內(nèi)容;如果沒有緩存則對HTTP載荷進行緩存,添加緩存標識;然后將HTTP數(shù)據(jù)加入待壓縮處理隊列,對緩存的載荷數(shù)據(jù)之外數(shù)據(jù)進行壓縮。本發(fā)明的方法通過緩存方式大幅度減少HTTP數(shù)據(jù)量;利用壓縮處理隊列中的眾多HTTP采集數(shù)據(jù)的重復冗余,通過無損壓縮算法進行壓縮,可以得到良好的壓縮率,滿足高速HTTP網(wǎng)絡采集數(shù)據(jù)的壓縮需求。
技術領域
本發(fā)明涉及計算機及網(wǎng)絡技術領域,尤其涉及一種面向高速HTTP網(wǎng)絡采集數(shù)據(jù)的壓縮方法。
背景技術
HTTP協(xié)議是互聯(lián)網(wǎng)應用最廣泛的協(xié)議,網(wǎng)絡中的HTTP數(shù)據(jù)是網(wǎng)絡安全審計、網(wǎng)絡流量分析等網(wǎng)絡安全應用的重要數(shù)據(jù)來源。通過在有線網(wǎng)絡中對HTTP的分析統(tǒng)計,其流量占總流量的24.7%。在目前網(wǎng)絡邊緣節(jié)點的帶寬達到10G,網(wǎng)絡核心節(jié)點的帶寬則到達40G、100G的情況下,經(jīng)過采集的HTTP網(wǎng)絡數(shù)據(jù)流量和并發(fā)量極大。對于網(wǎng)絡數(shù)據(jù)采集器把HTTP網(wǎng)絡采集數(shù)據(jù)傳輸給遠端的云分析系統(tǒng)進行后續(xù)分析處理的應用場景來說,其所需的采集數(shù)據(jù)傳輸需要很高帶寬,帶寬租賃費用難以承受。而網(wǎng)絡數(shù)據(jù)采集器如果對HTTP網(wǎng)絡采集數(shù)據(jù)進行本地存儲,存儲io難以滿足大吞吐量的數(shù)據(jù)存儲需求。無論是采集器向遠端傳輸方式還是本地存儲方式,都需要對HTTP網(wǎng)絡采集數(shù)據(jù)進行壓縮。采用通用的無損數(shù)據(jù)壓縮方式來減少網(wǎng)絡流量是一種合理的手段,但是HTTP流量中的音視頻、圖片等主要負載已經(jīng)進行了壓縮,再次壓縮反而可能會造成數(shù)據(jù)增大。HTTP協(xié)議中支持壓縮選項,用于減少web服務器和瀏覽器之間的傳輸數(shù)據(jù),但不適用于高速條件下的HTTP網(wǎng)絡數(shù)據(jù)采集。如何在盡量保留采集的HTTP關鍵信息的同時大幅度壓縮采集數(shù)據(jù),是高速HTTP網(wǎng)絡采集遇到的一大難題。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服目前高速HTTP網(wǎng)絡采集數(shù)據(jù)壓縮難以實現(xiàn)的問題,提供一種面向高速HTTP網(wǎng)絡采集數(shù)據(jù)的壓縮方法,利用HTTP服務內(nèi)容、HTTP協(xié)議字段和IP包頭等的重復冗余,通過對HTTP音、視頻、文本等內(nèi)容負載進行緩存,以及對處理隊列中的多HTTP并發(fā)的IP數(shù)據(jù)包進行無損壓縮,有效降低HTTP網(wǎng)絡采集數(shù)據(jù)量,特別適用于網(wǎng)絡運維審計,銀行電信等服務類網(wǎng)站的網(wǎng)絡行為審計等服務內(nèi)容固定的web應用場景。
為了實現(xiàn)上述目的,本發(fā)明提供了一種面向高速HTTP網(wǎng)絡采集數(shù)據(jù)的壓縮方法,所述方法包括:網(wǎng)絡數(shù)據(jù)采集器進行HTTP數(shù)據(jù)采集接收,判斷HTTP數(shù)據(jù)是否在本地緩存,如果緩存則刪除該數(shù)據(jù)的載荷,使用緩存標識替代載荷內(nèi)容;如果沒有緩存則對HTTP載荷進行緩存,添加緩存標識;然后將HTTP數(shù)據(jù)加入待壓縮處理隊列,對該數(shù)據(jù)的緩存的載荷數(shù)據(jù)之外數(shù)據(jù)進行壓縮。
上述技術方案中,所述方法具體包括:
步驟1)網(wǎng)絡數(shù)據(jù)采集器進行HTTP數(shù)據(jù)采集接收;
步驟2)判斷接收到的HTTP載荷是否有緩存,沒有緩存則執(zhí)行步驟3),有緩存則執(zhí)行步驟4);
步驟3)網(wǎng)絡數(shù)據(jù)采集器進行HTTP載荷緩存,并為該載荷添加緩存標識,同時設定緩存時間,執(zhí)行步驟5);
步驟4)刪除該條HTTP數(shù)據(jù)中的載荷,并使用緩存標識替代載荷內(nèi)容,執(zhí)行步驟5);
步驟5)將HTTP數(shù)據(jù)加入待壓縮處理隊列;
步驟6)判斷待壓縮處理隊列所占用的空間是否已經(jīng)達到了預定的壓縮門限,達到,則執(zhí)行步驟7),未達到,則執(zhí)行步驟1);
步驟7)采用無損壓縮算法對緩存的載荷數(shù)據(jù)之外數(shù)據(jù)進行壓縮;
步驟8)清除已經(jīng)到達緩存時間的緩存載荷,轉入步驟1),直至網(wǎng)絡數(shù)據(jù)采集器不再接收HTTP數(shù)據(jù)。
上述技術方案中,所述步驟7)的無損壓縮算法為gizp壓縮算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科智網(wǎng)科技有限公司,未經(jīng)中國科學院聲學研究所;北京中科智網(wǎng)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611040717.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡管理方法和裝置





