[發(fā)明專利]一種動態(tài)URL過濾方法及裝置有效
| 申請?zhí)枺?/td> | 201510020876.7 | 申請日: | 2015-01-15 |
| 公開(公告)號: | CN104573033B | 公開(公告)日: | 2017-12-19 |
| 發(fā)明(設(shè)計)人: | 鈕艷;易立;段東圣;趙淳璐;魯睿;劉曉輝;王晶;翟羽佳;潘進(jìn) | 申請(專利權(quán))人: | 國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 工業(yè)和信息化部電子專利中心11010 | 代理人: | 羅丹 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 動態(tài) url 過濾 方法 裝置 | ||
1.一種動態(tài)URL過濾方法,其特征在于,包括:
基于URL標(biāo)注集創(chuàng)建信息字典,所述信息字典的內(nèi)容包括兩種類型:字符串特征和統(tǒng)計特征;
針對URL標(biāo)注集中的每一個URL,根據(jù)所述信息字典生成對應(yīng)的特征向量,由URL標(biāo)注集中所有的URL對應(yīng)的特征向量組成特征矩陣;
采用分類算法對URL特征矩陣進(jìn)行分類得到特征權(quán)重向量和二分類閾值;
基于所述信息字典對待預(yù)測的URL進(jìn)行特征提取,并基于提取出的特征生成所述待預(yù)測的URL的特征向量;
將所述待預(yù)測的URL的特征向量與所述特征權(quán)重向量對應(yīng)相乘后相加得到目標(biāo)數(shù)值,將目標(biāo)數(shù)值與二分類閾值相比較以判斷所述待預(yù)測的URL是動態(tài)URL還是靜態(tài)URL;
所述統(tǒng)計特征至少包括以下各項之一的歸一化數(shù)值:設(shè)定的標(biāo)點符號出現(xiàn)次數(shù)、路徑深度、域名和/或路徑中的數(shù)字個數(shù)、域名和/或路徑中的最長字符串長度、后綴長度、數(shù)字與字符之間的轉(zhuǎn)換頻次;
所述字符串特征是指設(shè)定的字符串在URL中是否出現(xiàn)的量化信息,所述設(shè)定的字符串的獲取過程包括:至少采用設(shè)定的停用詞對URL中的詞進(jìn)行劃分得到設(shè)定的字符串,所述設(shè)定的停用詞包括:“%”、“,”和“;”。
2.根據(jù)權(quán)利要求1所述的動態(tài)URL過濾方法,其特征在于,設(shè)定的標(biāo)點符號出現(xiàn)次數(shù)的歸一化數(shù)值的確定方式是:先計算該設(shè)定的標(biāo)點符號在各URL中出現(xiàn)的次數(shù),找出出現(xiàn)該設(shè)定的標(biāo)點符號的次數(shù)最多的URL,然后相對于最多的出現(xiàn)次數(shù),將所有URL中的出現(xiàn)次數(shù)進(jìn)行歸一化后得到每個URL中的該設(shè)定的標(biāo)點符號的統(tǒng)計特征,經(jīng)過歸一化后,任一URL的該設(shè)定的標(biāo)點符號的統(tǒng)計特征的數(shù)值均在0~1范圍內(nèi);
后綴長度的歸一化數(shù)值的確定方式是:先計算各URL的后綴長度,然后找出具備最長后綴長度的URL,再計算出各URL的后綴長度與最長后綴長度的比值即得到歸一化后的每個URL中的后綴長度的歸一化數(shù)值,任一URL的后綴長度的歸一化數(shù)值均在0~1范圍內(nèi)。
3.根據(jù)權(quán)利要求1所述的動態(tài)URL過濾方法,其特征在于,針對URL標(biāo)注集中的每一個URL,根據(jù)所述信息字典生成對應(yīng)的特征向量,包括:
針對URL標(biāo)注集中的每一個URL,確定該URL中的字符串特征和統(tǒng)計特征;
將該URL中的字符串特征和統(tǒng)計特征組成該URL的特征向量。
4.根據(jù)權(quán)利要求1~3中任一項所述的動態(tài)URL過濾方法,其特征在于,所述分類算法,包括:線性邏輯回歸分類算法、樸素貝葉斯算法或者支持向量機(jī)算法。
5.一種動態(tài)URL過濾裝置,其特征在于,包括:
訓(xùn)練模塊,用于基于URL標(biāo)注集創(chuàng)建信息字典,所述信息字典的內(nèi)容包括兩種類型:字符串特征和統(tǒng)計特征;針對URL標(biāo)注集中的每一個URL,根據(jù)所述信息字典生成對應(yīng)的特征向量,由URL標(biāo)注集中所有的URL對應(yīng)的特征向量組成特征矩陣;采用分類算法對URL特征矩陣進(jìn)行分類得到特征權(quán)重向量和二分類閾值;
預(yù)測模塊,用于基于所述信息字典對待預(yù)測的URL進(jìn)行特征提取,并基于提取出的特征生成所述待預(yù)測的URL的特征向量;將所述待預(yù)測的URL的特征向量與所述特征權(quán)重向量對應(yīng)相乘后相加得到目標(biāo)數(shù)值,將目標(biāo)數(shù)值與二分類閾值相比較以判斷所述待預(yù)測的URL是動態(tài)URL還是靜態(tài)URL;
所述統(tǒng)計特征至少包括以下各項之一的歸一化數(shù)值:設(shè)定的標(biāo)點符號出現(xiàn)次數(shù)、路徑深度、域名和/或路徑中的數(shù)字個數(shù)、域名和/或路徑中的最長字符串長度、后綴長度、數(shù)字與字符之間的轉(zhuǎn)換頻次;
所述字符串特征是指設(shè)定的字符串在URL中是否出現(xiàn)的量化信息,所述設(shè)定的字符串的獲取過程包括:至少采用設(shè)定的停用詞對URL中的詞進(jìn)行劃分得到設(shè)定的字符串,所述設(shè)定的停用詞包括:“%”、“,”和“;”。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心,未經(jīng)國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510020876.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 動態(tài)矢量譯碼方法和動態(tài)矢量譯碼裝置
- 動態(tài)口令的顯示方法及動態(tài)令牌
- 動態(tài)庫管理方法和裝置
- 動態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動態(tài)口令生成方法、動態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動態(tài)模糊控制系統(tǒng)
- 一種基于動態(tài)信號的POS機(jī)和安全保護(hù)方法
- 圖像動態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動態(tài)聚合碼的系統(tǒng)
- 基于動態(tài)口令的身份認(rèn)證方法、裝置和動態(tài)令牌
- 一種動態(tài)檢測URL重定向死循環(huán)的方法及裝置
- 一種瀏覽器側(cè)提示訪問安全信息的方法及裝置
- 一種短URL服務(wù)的實現(xiàn)方法及裝置
- 一種用于發(fā)送和驗證URL簽名以進(jìn)行自適應(yīng)流中URL認(rèn)證和基于URL的內(nèi)容訪問授權(quán)的系統(tǒng)和方法
- 提供短統(tǒng)一資源定位符服務(wù)的方法和裝置及通信系統(tǒng)
- 一種URL檢測方法及檢測裝置
- 一種統(tǒng)一資源定位符的去重方法、裝置及電子設(shè)備
- 惡意URL檢測方法及系統(tǒng)
- 一種自身校驗發(fā)布和訪問URL的方法、裝置、系統(tǒng)和介質(zhì)
- 一種統(tǒng)一資源定位符URL的處理方法及裝置





