[發明專利]一種垃圾信息過濾方法和裝置在審
| 申請號: | 201310327247.X | 申請日: | 2013-07-31 |
| 公開(公告)號: | CN104348642A | 公開(公告)日: | 2015-02-11 |
| 發明(設計)人: | 王書強;潘璐伽;何誠 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26;H04L12/813 |
| 代理公司: | 廣州三環專利代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 垃圾 信息 過濾 方法 裝置 | ||
技術領域
本發明涉及網絡領域,尤其涉及一種垃圾信息過濾方法和裝置。
背景技術
現代網頁越來越復雜,用戶點擊鏈接發出訪問請求后,除生成用戶需要的HTTP請求數據包外,還會產生很多不相關的例如廣告請求的垃圾信息請求數據包,廣告請求會浪費用戶的有效流量,占用用戶的客戶端的軟硬件資源,對用戶瀏覽網頁的影響極大。
廣告收入是網站的重要經濟來源,網站為增加收入,不斷在網頁增加廣告位。用戶瀏覽網頁時頻繁彈出的廣告窗口不僅會嚴重影響用戶的上網速度和占用上網帶寬。現有的網頁廣告的形式主要分為彈出窗口廣告、浮動圖片廣告和Flash廣告,現有技術中對網頁廣告的攔截方式主要采用客戶端的瀏覽器自帶的廣告攔截功能來實現,例如通過對常見網頁廣告的如尺寸和位置等特征來進行攔截。
申請人發現,現有技術的網頁的攔截方法存在如下問題:
1、采用對網頁的特征進行攔截時,在面對更新迅速的網頁來說特征得不到及時更新攔截效果較差;2、在客戶端進行攔截,浪費用戶的有效流量。
發明內容
本發明實施例所要解決的技術問題在于,提供一種垃圾信息過濾方法和裝置。可解決現有技術中垃圾信息攔截精度差和浪費用戶流量的不足。
為了解決上述技術問題,本發明第一方面提供了一種垃圾信息過濾方法,包括:
檢測用戶通過客戶端的瀏覽器訪問目標URL統一資源標識符生成的HTTP超文本傳輸協議請求數據包集合,所述HTTP請求數據包集合中包括至少一個垃圾信息請求數據包和至少一個非垃圾信息請求數據包;
根據預置的分類規則識別出所述HTTP請求數據包集合中的垃圾信息請求數據包;
根據預置的攔截策略阻止所述垃圾信息請求數據包對應的目的主機向所述客戶端返回垃圾信息響應數據包。
結合第一方面,在第一種可能的實現方式中,所述根據預置的分類規則識別出所述請求信息數據包集合中的垃圾信息請求數據包的步驟包括:
提取所述HTTP請求數據包集合中待識別的HTTP請求數據包的頭信息,所述頭信息包括HTTP請求數據包的時間戳、HTTP請求數據包的大小和HTTP請求數據包的Referer字段;
若根據所述頭信息判斷所述待識別的HTTP請求數據包滿足所述預置的分類規則,確定所述待識別的HTTP請求數據包為垃圾信息請求數據包;
所述預置的分類規則包括:
待識別的HTTP請求數據包的時間戳和首個HTTP請求數據包的時間戳的時間間隔小于預置時長;和/或
待識別的HTTP請求數據包的Referer字段中包括ad、widget、embed、banner和blog中的一種或多種;和/或
待識別的HTTP請求數據包的大小大于預置大小。
結合第一方面,在第二種可能的實現方式中,所述根據預置的分類規則識別出所述請求信息數據包集合中的垃圾信息請求數據包的步驟包括:
根據預置的關鍵詞提取算法計算所述HTTP請求數據包集合中表征所述待識別的HTTP請求數據包的內容的第一關鍵詞向量;
計算所述第一關鍵詞向量與根據所述用戶歷史的垃圾信息請求數據包生成的第二關鍵詞向量之間的相似度;
若所述相似度值小于預置值,則確定所述待識別的HTTP請求數據包為垃圾信息請求數據包。
結合第一方面至第二種可能的實現方式中的任一種,在第三種可能的實現方式中,所述檢測用戶通過客戶端的瀏覽器訪問目標URL統一資源標識符生成的HTTP超文本傳輸協議請求數據包集合的步驟之前包括:
檢測所述客戶端發送的攜帶垃圾信息內容的訓練數據包,通過所述訓練數據包學習生成用于識別垃圾信息請求數據包的分類規則。
結合第一方面的第三種可能的實現方式,在第四種可能的實現方式中,所述根據預置的分類規則識別出所述HTTP請求數據包集合中的垃圾信息請求數據包的步驟包括:
識別出所述HTTP請求數據包集合中的非垃圾信息請求數據包,根據非垃圾信息請求數據包分離出所述HTTP請求數據包集合中的垃圾信息請求數據包。
結合第一方面的第四種可能的實現方式,在第五種可能的實現方式中,所述識別出所述HTTP請求數據包集合中的非垃圾信息請求數據包的步驟包括:
從所述HTTP請求數據包集合中HTTP請求數據包對應的目的主機抓取對應的HTTP響應數據包;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310327247.X/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





