[發明專利]一種動態URL過濾方法及裝置有效

申請號：	201510020876.7	申請日：	2015-01-15
公開（公告）號：	CN104573033B	公開（公告）日：	2017-12-19
發明（設計）人：	鈕艷;易立;段東圣;趙淳璐;魯睿;劉曉輝;王晶;翟羽佳;潘進	申請（專利權）人：	國家計算機網絡與信息安全管理中心
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	工業和信息化部電子專利中心11010	代理人：	羅丹
地址：	100029***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種動態 url 過濾方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及URL過濾技術領域，尤其涉及一種動態URL過濾方法及裝置。

背景技術

2014年1月16日，中國互聯網絡信息中心(CNNIC)在京發布第33次《中國互聯網絡發展狀況統計報告》。《報告》顯示，截至2013年12月，中國網民規模達6.18億，互聯網普及率為45.8％。其中，手機網民規模達5億，繼續保持穩定增長。隨之而存在的是每天上網活動產生的大量數據，這里面瀏覽網頁占了絕大部分的比重，也就是說http(hypertext transfer protocol，超文本傳送協議)的承載量很大。隨之必然會有大規模的URL存在。但是，其中往往有意義的URL只是一部分。有一定數量的URL(Uniform Resource Locator，統一資源定位器)已經不能再訪問，比例約20％。在能訪問的URL集合里面也只是關心靜態部分的URL，因為占比約15％的動態URL的內容會發生變化。因此，對動態URL的過濾很有必要性。

傳統的對動態URL進行過濾的方法是基于對網頁內容變化進行判斷的，具體是先對URL進行一次訪問，判斷出它是否能被訪問，然后對能訪問的URL進行兩次訪問，對其頁面內容進行MD5值轉換。然后對兩次的MD5值進行比較。如果兩次內容的MD5值相同，那么該URL就是靜態URL，否則認為該URL是動態URL。但是此種方法的速度比較慢，過程比較長，而且比較耗資源。因此，需要尋找一種更好更快速的方法來進行分類。

發明內容

本發明要解決的技術問題是，提供一種動態URL過濾方法及裝置，在節省資源消耗的同時提高處理的速度。

本發明采用的技術方案是，所述動態URL過濾方法，包括：

基于URL標注集創建信息字典，所述信息字典的內容包括兩種類型：字符串特征和統計特征；

針對URL標注集中的每一個URL，根據所述信息字典生成對應的特征向量，由URL標注集中所有的URL對應的特征向量組成特征矩陣；

采用分類算法對URL特征矩陣進行分類得到特征權重向量和二分類閾值；

基于所述信息字段對待預測的URL進行特征提取，并基于提取出的特征生成所述待預測的URL的特征向量；

將所述待預測的URL的特征向量與所述特征權重向量對應相乘后相加得到目標數值，將目標數值與二分類閾值相比較以判斷所述待預測的URL是動態URL還是靜態URL。

進一步的，所述統計特征至少包括以下各項之一的歸一化數值：設定的標點符號出現次數、路徑深度、域名和/或路徑中的數字個數、域名和/或路徑中的最長字符串長度、后綴長度、數字與字符之間的轉換頻次；

所述字符串特征是指設定的字符串在URL中是否出現的量化信息，所述設定的字符串的獲取過程包括：至少采用設定的停用詞對URL中的詞進行劃分得到設定的字符串，所述設定的停用詞包括：“％”、“，”和“；”。

進一步的，設定的標點符號出現次數的歸一化數值的確定方式是：先計算該設定的標點符號在各URL中出現的次數，找出出現該設定的標點符號的次數最多的URL，然后相對于該最多的出現次數，將所有URL中的出現次數進行歸一化后得到每個URL中的該設定的標點符號的統計特征，經過歸一化后，任一URL的該設定的標點符號的統計特征的數值均在0～1范圍內；

后綴長度的歸一化數值的確定方式是：先計算各URL的后綴長度，然后找出具備最長后綴長度的URL，再計算出各URL的后綴長度與最長后綴長度的比值即得到歸一化后的每個URL中的后綴長度的歸一化數值，任一URL的后綴長度的歸一化數值均在0～1范圍內。

進一步的，針對URL標注集中的每一個URL，根據所述信息字典生成對應的特征向量，包括：

針對URL標注集中的每一個URL，確定該URL中的字符串特征和統計特征；

將該URL中的字符串特征和統計特征組成該URL的特征向量。

進一步的，所述分類算法，包括：線性邏輯回歸分類算法、樸素貝葉斯算法或者支持向量機算法。

本發明還提供一種動態URL過濾裝置，包括：

訓練模塊，用于基于URL標注集創建信息字典，所述信息字典的內容包括兩種類型：字符串特征和統計特征；針對URL標注集中的每一個URL，根據所述信息字典生成對應的特征向量，由URL標注集中所有的URL對應的特征向量組成特征矩陣；采用分類算法對URL特征矩陣進行分類得到特征權重向量和二分類閾值；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心，未經國家計算機網絡與信息安全管理中心許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201510020876.7/2.html，轉載請聲明來源鉆瓜專利網。