[發明專利]一種動態URL過濾方法及裝置有效
| 申請號: | 201510020876.7 | 申請日: | 2015-01-15 |
| 公開(公告)號: | CN104573033B | 公開(公告)日: | 2017-12-19 |
| 發明(設計)人: | 鈕艷;易立;段東圣;趙淳璐;魯睿;劉曉輝;王晶;翟羽佳;潘進 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 工業和信息化部電子專利中心11010 | 代理人: | 羅丹 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 url 過濾 方法 裝置 | ||
技術領域
本發明涉及URL過濾技術領域,尤其涉及一種動態URL過濾方法及裝置。
背景技術
2014年1月16日,中國互聯網絡信息中心(CNNIC)在京發布第33次《中國互聯網絡發展狀況統計報告》。《報告》顯示,截至2013年12月,中國網民規模達6.18億,互聯網普及率為45.8%。其中,手機網民規模達5億,繼續保持穩定增長。隨之而存在的是每天上網活動產生的大量數據,這里面瀏覽網頁占了絕大部分的比重,也就是說http(hypertext transfer protocol,超文本傳送協議)的承載量很大。隨之必然會有大規模的URL存在。但是,其中往往有意義的URL只是一部分。有一定數量的URL(Uniform Resource Locator,統一資源定位器)已經不能再訪問,比例約20%。在能訪問的URL集合里面也只是關心靜態部分的URL,因為占比約15%的動態URL的內容會發生變化。因此,對動態URL的過濾很有必要性。
傳統的對動態URL進行過濾的方法是基于對網頁內容變化進行判斷的,具體是先對URL進行一次訪問,判斷出它是否能被訪問,然后對能訪問的URL進行兩次訪問,對其頁面內容進行MD5值轉換。然后對兩次的MD5值進行比較。如果兩次內容的MD5值相同,那么該URL就是靜態URL,否則認為該URL是動態URL。但是此種方法的速度比較慢,過程比較長,而且比較耗資源。因此,需要尋找一種更好更快速的方法來進行分類。
發明內容
本發明要解決的技術問題是,提供一種動態URL過濾方法及裝置,在節省資源消耗的同時提高處理的速度。
本發明采用的技術方案是,所述動態URL過濾方法,包括:
基于URL標注集創建信息字典,所述信息字典的內容包括兩種類型:字符串特征和統計特征;
針對URL標注集中的每一個URL,根據所述信息字典生成對應的特征向量,由URL標注集中所有的URL對應的特征向量組成特征矩陣;
采用分類算法對URL特征矩陣進行分類得到特征權重向量和二分類閾值;
基于所述信息字段對待預測的URL進行特征提取,并基于提取出的特征生成所述待預測的URL的特征向量;
將所述待預測的URL的特征向量與所述特征權重向量對應相乘后相加得到目標數值,將目標數值與二分類閾值相比較以判斷所述待預測的URL是動態URL還是靜態URL。
進一步的,所述統計特征至少包括以下各項之一的歸一化數值:設定的標點符號出現次數、路徑深度、域名和/或路徑中的數字個數、域名和/或路徑中的最長字符串長度、后綴長度、數字與字符之間的轉換頻次;
所述字符串特征是指設定的字符串在URL中是否出現的量化信息,所述設定的字符串的獲取過程包括:至少采用設定的停用詞對URL中的詞進行劃分得到設定的字符串,所述設定的停用詞包括:“%”、“,”和“;”。
進一步的,設定的標點符號出現次數的歸一化數值的確定方式是:先計算該設定的標點符號在各URL中出現的次數,找出出現該設定的標點符號的次數最多的URL,然后相對于該最多的出現次數,將所有URL中的出現次數進行歸一化后得到每個URL中的該設定的標點符號的統計特征,經過歸一化后,任一URL的該設定的標點符號的統計特征的數值均在0~1范圍內;
后綴長度的歸一化數值的確定方式是:先計算各URL的后綴長度,然后找出具備最長后綴長度的URL,再計算出各URL的后綴長度與最長后綴長度的比值即得到歸一化后的每個URL中的后綴長度的歸一化數值,任一URL的后綴長度的歸一化數值均在0~1范圍內。
進一步的,針對URL標注集中的每一個URL,根據所述信息字典生成對應的特征向量,包括:
針對URL標注集中的每一個URL,確定該URL中的字符串特征和統計特征;
將該URL中的字符串特征和統計特征組成該URL的特征向量。
進一步的,所述分類算法,包括:線性邏輯回歸分類算法、樸素貝葉斯算法或者支持向量機算法。
本發明還提供一種動態URL過濾裝置,包括:
訓練模塊,用于基于URL標注集創建信息字典,所述信息字典的內容包括兩種類型:字符串特征和統計特征;針對URL標注集中的每一個URL,根據所述信息字典生成對應的特征向量,由URL標注集中所有的URL對應的特征向量組成特征矩陣;采用分類算法對URL特征矩陣進行分類得到特征權重向量和二分類閾值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心,未經國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510020876.7/2.html,轉載請聲明來源鉆瓜專利網。





