[發明專利]識別惡意域名的方法及計算設備有效
| 申請號: | 201911081214.5 | 申請日: | 2019-11-07 |
| 公開(公告)號: | CN110808987B | 公開(公告)日: | 2022-03-29 |
| 發明(設計)人: | 張尊平 | 申請(專利權)人: | 南京亞信智網科技有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;H04L61/4511 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 謝建云;趙愛軍 |
| 地址: | 211111 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 惡意 域名 方法 計算 設備 | ||
1.一種識別惡意域名的方法,所述方法適于在計算設備中執行,所述方法包括步驟:
對待識別域名進行預處理,生成所述待識別域名對應的特征向量;以及
利用分類模型處理所述特征向量,以生成預測結果來指示所述待識別域名是否為惡意域名,其中,所述分類模型為以不同域名的特征向量為訓練樣本訓練得出;
若所述預測結果指示所述待識別域名為惡意域名,則在預設數據庫中匹配所述待識別域名;
若在預設數據庫中匹配到所述待識別域名,則再次確認所述待識別域名為惡意域名,并攔截所述待識別域名;若在預設數據庫中未匹配到所述待識別域名,則判定該域名為可疑域名并記錄,留待后續判斷,
其中,所述對待識別域名進行預處理,生成所述待識別域名對應的特征向量的步驟包括:
按照待識別域名的層次,將所述待識別域名轉化為多維矩陣,其中所述多維矩陣的維數由域名的層次數目確定;
將所述多維矩陣中的字符轉換為數字,并將所述多維矩陣轉換為一維向量,作為所述待識別域名的特征向量。
2.如權利要求1所述的方法,其中,將所述多維矩陣中的字符轉換為數字的步驟包括:
確定各字符對應的出現頻次,其中,各字符對應的出現頻次通過預先統計各字符在惡意域名中出現的次數來得到;
根據出現頻次將各字符轉換為對應的數字。
3.如權利要求1或2所述的方法,還包括步驟:
獲取用于訓練的域名;
對所獲取的域名進行預處理,生成所述域名對應的特征向量,作為訓練樣本;以及
利用所述特征向量,訓練生成分類模型。
4.如權利要求3所述的方法,其中,所述利用特征向量,訓練生成分類模型的步驟包括:
對所述特征向量進行劃分,生成至少一個特征;
對各特征分別進行處理,來生成各特征對應的至少一個取值;
構建初始的分類模型;以及
根據初始的分類模型中的節點,結合所述特征及其取值,確定出預測結果。
5.如權利要求4所述的方法,其中,所述根據初始的分類模型中的節點,結合特征及其取值,確定出預測結果的步驟還包括:
從初始的分類模型的根結點開始,對每個節點:
計算特征對訓練樣本的基尼指數,
在所有特征及其對應的取值中,選擇基尼指數最小的特征及其對應的取值作為最優特征與最優切分點,并根據最優特征與最優切分點對所述節點進行分裂,產生兩個子節點,
重復計算基尼指數的步驟和產生子節點的步驟,直至滿足預設條件時,生成分類模型。
6.如權利要求5所述的方法,其中,所述預設條件包括以下條件中的任意一種:
節點中所包括的訓練樣本的數量小于第一閾值;
訓練樣本的基尼指數小于第二閾值。
7.如權利要求6所述的方法,其中,所述基尼指數按照以下公式計算:
對于樣本集D,其基尼指數GINI(D)為:
其中,D為節點所包括的樣本集,k為樣本集中所包括的特征信息的數量,Pi為第i個特征信息的樣本數量占D中所包括的所有樣本數量的比例;
如果樣本集D根據特征A被分裂成D1和D2兩部分,則基尼指數GINI(D,A)為:
其中,D1、D2分別為按照特征A對節點進行分裂所得的兩個子節點所包括的樣本集,|D1|、|D2|為樣本集D1、D2中所包括的樣本的數量。
8.如權利要求1所述的方法,其中,
所述預設數據庫包括以下數據庫中的一個或多個:惡意域名黑名單數據庫、域名評分系統、惡意域名特征庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京亞信智網科技有限公司,未經南京亞信智網科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911081214.5/1.html,轉載請聲明來源鉆瓜專利網。





