[發明專利]一種基于機器學習的網頁代理發現方法在審
| 申請號: | 201710858063.4 | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN107818132A | 公開(公告)日: | 2018-03-20 |
| 發明(設計)人: | 張鵬;陳志鵬;郭莉;劉慶云 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F21/56 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 余長江 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 網頁 代理 發現 方法 | ||
技術領域
本發明涉及網絡安全技術領域,特別涉及一種在開放的網絡空間環境下的基于機器學習的網頁代理發現方法。
背景技術
隨著網絡空間規模不斷擴大,在給人們便利的同時,相應的“黑產”(色情網站,欺詐交易,網絡入侵信息竊取等)更是如火如荼。不法分子為了逃避檢測,更加注重自身訪問行為的隱藏(頻繁使用代理等),這些惡意行為對企業、國家的風險控制都提出了新的挑戰。
近年來代理服務依托其自身具備的或互聯網公共服務提供的海量資源,不斷擴充其代理地址進行對抗。用戶更加注重其訪問行為的隱藏,代理的傳播渠道也更加隱蔽,這些都加深了網絡取證的難度。
在開放環境下的網絡空間服務中,代理服務形態多表征,數量及分布動態變化,具有隱匿、動態、時變的特點,使得服務的真實情況難以刻畫。另外,代理服務具有提升訪問性能、資源訪問控制、安全性防護等多種功能,因此,通過對網絡空間代理服務資源的探測、分析和發現,可以全面掌握代理服務的特性及其分布,對企業網絡環境優化及國家網絡強國戰略具有重要意義。
根據GWI(global web index)2014年的社交報告指出,在16至64歲的人口中,我國是世界上第三大使用代理服務的國家,因此,進行代理服務發現刻不容緩。另外,代理服務種類繁多,如網頁代理、HTTP代理、Socks代理、VPN代理等等。但在線網頁代理具有免費、不用安裝、易使用等優點而被大量使用。
Staniford和Heberlein二人首次提出了代理服務檢測的概念,并且提出了基于網絡包內容的檢測方法,毫無疑問,這種方法對加密流量的代理服務卻無能為力。當然,也有許多是基于黑名單的方法,但是這種基于黑名單的方法僅限于檢測已知的代理服務,缺少很好的擴展性。另外,雖然基于黑名單方法在運行時效率非常高,但是在構造黑名單的過程中,十分麻煩,因為如今大多數構造黑名單的方法還是手工的方式。為了增強可擴展性,同時為了應對代理域名周期性變化的問題,提出了基于正則表達式的方法,如產生Snort規則等等。基于正則表達式的方法雖然可擴展性好,但是精確度相對不高,而且生成正則表達式的過程也是低效率的。
如今大多數的研究中,主要有2種方法來檢測代理服務:基于簽名的方法(Signature-based)和基于特征的方法(characteristic-based)。
基于簽名的方法主要是基于內容的,如基于指紋和基于水印等等。基于指紋的方法主要是基于流量的內容,如包的特征屬性、內容等提煉出簽名,正則表達式等方式進行檢測;基于水印的方法主要是在流入主機的流量中注入水印特征,若在流出主機的流量中檢測出含有水印的包特征,則判定該主機為提供代理服務的主機。這兩種基于內容的方法在加密流量中就很難應用了。
后者基于特征的方法不對包內容進行檢測,一方面摒棄了侵犯用戶隱私的擔憂,另一方面也繞過了對加密內容檢測內容困難的難題。Vahid等人基于存儲于服務器中的不同流量日志,用機器學習的方法來識別代理服務,但這對于服務器的存儲容量和分析效率提出了挑戰。Rueimin等人提出了一種基于RTT(Round-Trip Time)時間的方法來檢測是否為代理主機。其基于的理論依據是若代理主機提供中繼服務,其必然響應用戶的請求,并重新建立TCP鏈接,這樣基于代理主機的RTT總時間必然大于未經過代理主機的RTT。此外,還有基于其它特征,如包大小,包時間戳,建立鏈接起止時間,包間延遲等等,來檢測代理服務。這些基于時間戳的方法受網絡環境影響很大,精度較低,魯棒性(Robust)較差。
發明內容
本發明的目的是提供一種基于機器學習的網頁代理發現方法,基于爬蟲捕獲的URL和網頁內容抽取特征,并構建模型進行訓練,根據訓練的模型識別出網頁代理,識別的準確率、召回率及F1-score高。
為達到上述目的,本發明采用如下技術方案:
一種基于機器學習的網頁代理發現方法,步驟包括:
通過爬蟲主動獲取代理及非代理的網頁數據集;
從所述網頁數據集中分別抽取URL特征和DOM特征,根據該URL特征和/或DOM特征構建一含有多維特征的向量作為訓練集;
利用機器學習方法在所述訓練集上構建模型并進行訓練,通過訓練出的模型進行網頁代理識別。
進一步地,所述網頁數據集包括URL和網頁內容。
進一步地,所述URL特征包括:數字、敏感詞匯、特殊符號、IP域名、嵌入域名、頂級域名使用非常用域名以及URL生效生存期短。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710858063.4/2.html,轉載請聲明來源鉆瓜專利網。





