[發明專利]一種惡意域名的識別方法及系統在審
| 申請號: | 202010143250.6 | 申請日: | 2020-03-04 |
| 公開(公告)號: | CN111353109A | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 馬長春 | 申請(專利權)人: | 深信服科技股份有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/2458;G06F16/28;G06F16/2455;G06K9/62 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王兆林 |
| 地址: | 518055 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 惡意 域名 識別 方法 系統 | ||
本申請實施例公開了一種惡意域名的識別方法及系統,用于提升對惡意域名的識別率。本申請實施例方法包括:將獲取到的惡意域名執行聚類分組,得到多個域名簇;對所述多個域名簇的各級域名進行處理,以抽取出與每個域名簇對應的惡意域名的正則表達式;對所述正則表達式進行測試,以獲取強正則表達式,所述強正則表達式為置信度及命中率分別大于對應預設閾值的正則表達式;利用所述強正則表達式對惡意域名進行識別。
技術領域
本申請涉及數據安全技術領域,尤其涉及一種惡意域名的識別方法及系統。
背景技術
惡意域名指的是某個域名下的至少一個URL指向一個惡意的資源,使得用戶在訪問該惡意資源時,用戶的財產信息或計算機系統數據遭受一定的安全風險。
當前獲取惡意域名的的主要方法是采用黑名單技術。黑名單實現簡單,理解容易,但是很容易產生漏判,同時在產生黑名單的過程中也會產生漏判,造成的后果就是防御系統容易被繞過。
而如何提升惡意域名的識別率,是亟待解決的一個問題。
發明內容
本申請實施例提供了一種惡意域名的識別方法及系統,用于根據惡意域名的相似性,從其中抽取出具有強泛化能力的正則表達式,并通過強正則表達式對惡意域名進行匹配及識別,以提升惡意域名的識別率。
本申請實施例第一方面提供了一種惡意域名的識別方法,包括:
將獲取到的惡意域名執行聚類分組,得到多個域名簇;
對所述多個域名簇的各級域名進行處理,以抽取出與每個域名簇對應的惡意域名的正則表達式;
對所述正則表達式進行測試,以獲取強正則表達式,所述強正則表達式為置信度及命中率分別大于對應預設閾值的正則表達式;
利用所述強正則表達式對惡意域名進行識別。
優選的,所述將獲取到的惡意域名執行聚類分組,得到多個域名簇,包括:
將獲取到的惡意域名執行域名向量化,以將所述惡意域名映射到向量空間;
將向量化后的惡意域名分別執行域名的粗粒度聚類分組及域名的細粒度聚類分組,以得到所述多個域名簇,其中,所述粗粒度聚類分組包括K-means聚類算法、層次聚類算法及IP聚類算法中的至少一種,所述細粒度聚類分組包括計算字符串的相似度矩陣。
優選的,所述對所述多個域名簇的各級域名進行處理,以抽取出與每個域名簇對應的惡意域名的正則表達式,包括:
對所述多個域名簇執行過濾,以獲取具有相同等級數量的域名;
分別對各級域名進行數值統計,以抽取出各級域名中的高頻字段;
根據所述高頻字段,拼裝出與每個域名簇對應的惡意域名的正則表達式。
優選的,所述置信度通過第一公式進行計算,其中,所述第一公式為:
其中,所述score表示置信度,所述n真表示訓練庫中真實的惡意域名數量,所述N測表示所述強正則表達式在訓練庫中識別的惡意域名的數量;
所述命中率通過第二公式進行計算,其中,所述第二公式為:
其中,所述ratio表示命中率,所述TP表示所述強正則表達式在訓練數據庫中命中黑庫中的條目數,所述FP表示所述強正則表達式在訓練數據庫命中白庫中的條目數。
優選的,所述方法還包括:
對識別出的惡意域名進行歷史子域名的信譽處理,以獲取并輸出與所述信譽處理結果相一致的惡意域名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深信服科技股份有限公司,未經深信服科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010143250.6/2.html,轉載請聲明來源鉆瓜專利網。





