[發明專利]報文過濾方法與裝置在審
| 申請號: | 201310257479.2 | 申請日: | 2013-06-25 |
| 公開(公告)號: | CN103354546A | 公開(公告)日: | 2013-10-16 |
| 發明(設計)人: | 羅峰;黃蘇支;李娜 | 申請(專利權)人: | 億贊普(北京)科技有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/12;H04L29/08 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘭淑鐸 |
| 地址: | 100081 北京市海淀區南大街東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 報文 過濾 方法 裝置 | ||
技術領域
本發明涉及網絡技術領域,特別是涉及一種報文過濾方法與裝置。
背景技術
隨著網絡技術的發展,對網絡用戶行為的分析越來越多地被應用到網絡中,如,個性化推薦或者廣告精準投放等。目前,在對網絡用戶行為進行分析時,由于用戶訪問網絡過程中會產生許多對分析用戶行為無效的干擾報文,需要對這些干擾報文進行過濾。
通過對干擾報文進行分析可以發現,干擾報文主要來源于:(1)用戶訪問網站時,在建立連接過程中產生的DNS報文以及TCP握手的控制報文等;(2)用戶獲取網頁內容時,會同時獲得一些輔助報文,如JavaScript報文、Cookie操作報文或廣告嵌入報文等;(3)有一部分HTTP?GET報文也是干擾報文,如用戶下載圖片或視頻的報文,這類報文因為沒有文本信息,暫時無法用于用戶行為分析。從以往的報文統計來看,上述干擾報文在所有報文中所占比例非常大,如果不進行過濾,將對數據采集、數據存儲以及數據分析過程產生極大負面影響。
為此,采用的一種現有的報文過濾方法包括:確定接收的報文的速率、協議和源地址、以及從預先設置的至少一個速率門限中確定對應于協議和源地址的速率門限;根據所確定的速率門限和報文的門限對報文進行過濾。對上述現有報文過濾方法分析可見,首先,現有的報文過濾用于有線網絡,不能對無線網絡的報文進行報文過濾;其次,現有的報文過濾主要在有線網絡的網絡層或鏈路層進行報文分析及過濾,無法針對上文提到的干擾報文進行過濾。
然而,由于用戶訪問網絡產生的上述干擾報文數據規模龐大,而這些干擾報文占據了很大比例(所占比例約為75%),因此對數據采集、數據存儲和數據分析產生了極大負面影響。在這種情況下,即使將現有的有線網絡報文的報文過濾方法應用到無線網絡中,也會存在:(1)在數據采集過程中,數據采集服務器需要消耗處理器資源和內存資源對干擾報文進行逐條分析,使得數據采集效率低下,并且,當數據采集效率低于報文到達速率時,會產生丟包現象;(2)在數據存儲過程中,分布式存儲服務器(如Hadoop存儲平臺)需要消耗大量的存儲資源,造成經濟效益損失;(3)在數據分析過程中,大量的數據噪音對機器學習算法的效率和效果產生不良影響。
綜上可見,需要本領域技術人員迫切解決的一個技術問題就是:如何提供一種針對無線網絡的報文過濾方案,對無線網絡的網絡報文進行有效過濾,以便在后續的報文處理過程中提高無線網絡報文采集效率,避免丟包,節約存儲服務器資源,提高數據分析過程中機器學習算法的效率和效果。
發明內容
本發明提供了一種報文過濾方法與裝置,以解決現有技術中沒有針對無線網絡的報文過濾方案,對無線網絡的網絡報文進行有效過濾的問題。
為了解決上述問題,本發明公開了一種報文過濾方法,用于無線網絡的網絡報文過濾,所述方法包括:獲取無線網絡用戶訪問網站的無線網絡報文;按照設定的過濾規則順序,使用設定的過濾規則對所述無線網絡報文進行過濾;其中,所述設定的過濾規則包括:非HTTP協議報文過濾規則、主機名過濾規則、URL過濾規則、UA過濾規則、以及,文件名與擴展名過濾規則;所述非HTTP協議報文過濾規則用于過濾非HTTP協議的報文,所述主機名過濾規則用于過濾設定主機名的報文,所述URL過濾規則用于過濾設定URL的報文,所述UA過濾規則用于過濾設定UA的報文,所述文件名與擴展名過濾規則用于過濾設定文件名和/或設定擴展名的報文;所述設定的過濾規則順序按照從先到后的順序依次為:所述非HTTP協議報文過濾規則、所述主機名過濾規則、所述URL過濾規則、所述UA過濾規則,和所述文件名與擴展名過濾規則。
優選地,所述獲取無線網絡用戶訪問網站的無線網絡報文的步驟包括:獲取所述無線網絡用戶訪問網絡的流量數據;對所述流量數據進行解析,獲取所述無線網絡報文。
優選地,所述非HTTP協議報文過濾規則為Libpcap過濾規則。
優選地,所述主機名過濾規則包括以下至少之一:IP地址精確匹配規則、DNS域名模糊匹配規則、DNS域名關鍵字匹配規則。
優選地,所述URL過濾規則包括以下至少之一:包含DNS域名及參數的URL子串匹配規則、僅包含URL參數的子串匹配規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于億贊普(北京)科技有限公司,未經億贊普(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310257479.2/2.html,轉載請聲明來源鉆瓜專利網。





