[發明專利]一種基于機器學習實現惡意域名識別的方法在審
| 申請號: | 201811365404.5 | 申請日: | 2018-11-16 |
| 公開(公告)號: | CN111200576A | 公開(公告)日: | 2020-05-26 |
| 發明(設計)人: | 賈盛;王曉波 | 申請(專利權)人: | 慧盾信息安全科技(蘇州)股份有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/12;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 215000 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 實現 惡意 域名 識別 方法 | ||
本發明提供一種基于機器學習實現惡意域名識別的方法,其特征在于,采用機器學習技術,訓練出識別惡意域名的機器學習模型組,該模型組可以準確的對惡意域名進行識別;包括機器學習模型訓練單元和惡意域名識別單元。
技術領域
本發明屬于互聯網信息安全領域,涉及域名管理、病毒和木馬技術、機器學習、以及NB、MLP和XGBoost等算法。本發明所涉及的一種機器學習識別惡意域名的方法,采用上述技術和算法,能夠實現對機器自動生成的惡意域名的準確、快速的識別。
縮略語及名詞解釋
DGA:域名生成算法是一種利用隨機字符來生成CC域名,從而逃避域名黑名單識別的技術手段。
CC服務器:遠程命令和控制服務器,目標機器可以接收來自服務器的命令,從而達到服務器控制目標機器的目的,該方法常用于病毒木馬控制被感染的機器。
DNS:Domain Name System,域名系統。
Jaccard系數:Jaccard相似系數(Jaccard similarity coefficient)用于比較有限數據集之間的相似性與差異性,Jaccard系數值越大,樣本相似度越高。
XGBoost:eXtreme Gradient Boosting。
MLP:多層感知器。
NB:樸素貝葉斯法。
背景技術
隨著網絡時代的到來,互聯網讓人民的生活更加便捷,一方面,互聯網的進步帶給了人們生活的便捷,另一方面黑客攻擊者也會竊取互聯網用戶的重要信息,威脅著網民的網絡安全,黑客攻擊者利用僵尸網絡對感染病毒的主機進行了大量的惡意活動,并且僵尸網絡大多數使用了Domain Flux技術(如圖1),即根據DGA(Domain GenerationAlgorithms,域名產生算法)在一段時間內涌現很多新域名并且只有其中一兩個域名被注冊為真實的活躍域名,以逃避安全檢測員檢測域名。
通過事先注冊一個或多個域名,控制者便可實現對整個網絡的控制,對于僵尸程序,為實現與CC服務器建立連接,必須對生成域名進行解析,直至獲取CC 服務器的IP地址,由于注冊的域名數量有限,導致感染主機會請求大量新域名,并存在一定數量解析失敗的域名請求行為。
當前殺毒軟件以及安全防護設備無法檢測惡意域名,時刻威脅著用戶終端的系統安全。主要包括以下兩個原因:
1:惡意軟件定期使用DGA算法生成為隨機域名,有效繞過黑名單檢測,嘗試連接,尋找CC中控。
2:如果一個生成的域名無法連接,便生成下一個DGA為隨機域名進行連接嘗試,這樣即使中控機的IP地址發生變化,或一個中控域名被干掉,一定時間后肉雞仍能尋找到CC中控繼續工作。
發明內容
本發明涉及一種機器學習識別惡意域名的方法,通過機器學習模型訓練和惡意域名識別,可實現簡單而有效的惡意域名識別,能夠區分惡意域名和正常域名,解決現有技術中惡意域名識別滯后的問題。
一種機器學習識別惡意域名識別的方法包括:
1.機器學習模型訓練單元:通過構建數據集、特征提取、模型訓練,訓練出可識別惡意域名的機器學習模型組。如圖3
2.惡意域名識別單元:通過待識別的域名獲取、靜態過濾、待識別域名特征提取、模型組預測、選舉投票,可實現惡意域名識別。如圖4
構建正負樣本數據集,所述正樣本數據集使用Alexa全球排名前100萬的網站域名數據,負樣本數據集使用360netlab開放DGA家族數據,并對DGA家族數據進行分類。
所述DGA家族類型包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于慧盾信息安全科技(蘇州)股份有限公司,未經慧盾信息安全科技(蘇州)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811365404.5/2.html,轉載請聲明來源鉆瓜專利網。





