[發明專利]一種基于詞向量的惡意域名集群檢測方法及裝置有效
| 申請號: | 202110371772.6 | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN113271292B | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 李依馨;王利明;楊婧 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;H04L61/4511;G06F16/33;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 陳美章 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 惡意 域名 集群 檢測 方法 裝置 | ||
1.一種基于詞向量的惡意域名集群檢測方法,其步驟包括:
1)提取服務器日志中原始數據的有效數據,并根據所述有效數據,生成各客戶端的訪問序列,其中有效數據包括:時間戳、源IP和訪問域名;
2)對每一訪問序列從時間維度與空間維度上進行聚類,生成一個域名訪問序列;
3)對每一域名訪問序列,若該域名訪問序列中相鄰的訪問域名相同,則進行去重,并將去重后包含多個訪問域名的域名訪問序列,作為一個域名集群;
4)將一個訪問域名視為一個單詞,將一個域名集群視為一個句子,并依據域名集群計算所有客戶端在訪問行為上的相似上下文關系,得到每一訪問域名的域名語義向量;
5)將域名集群輸入基于textCNN的域名集群分類模型,得到惡意域名集群檢測結果;
其中所述基于textCNN的域名集群分類模型包括:
輸入層,用以將域名集群作為輸入;
嵌入層,用以基于域名集群與每一訪問域名的域名語義向量,生成L*k維的域名語義向量矩陣,L為域名集群的長度,k為域名語義向量的維度;
卷積層,用以根據L*k維的域名語義向量矩陣,生成若干特征圖;
最大池化層,用以對所述特征圖進行最大池化操作,獲取特征圖的特征;
輸出層,用以將所有特征圖的特征輸入全連接層并且使用softmax函數作為激活函數,輸出惡意域名集群檢測結果。
2.如權利要求1所述的方法,其特征在于,生成各客戶端的訪問序列之前,對有效數據進行預處理;所述預處理包括:刪除若干最活躍客戶端的有效數據、過濾不符合規則的訪問域名和過濾無效訪問域名。
3.如權利要求1所述的方法,其特征在于,通過以下步驟對每一訪問序列從時間維度上進行聚類:
1)對每一訪問序列Ci={(s1,t1),…,(sj,tj),…,(sn,tn)},計算兩個相鄰的訪問請求(sj,tj)與(sj+1,tj+1)的時間間隔ΔT=tj+1-tj,其中i為客戶端序號,j為訪問序列Ci中訪問請求的序號,s為訪問域名,t為時間戳中的訪問時間;
2)若時間間隔ΔT大于設定閾值τ,則將該訪問序列Ci從此切開,得到若干訪問子序列Cp,其中p為訪問子序列的序號。
4.如權利要求3所述的方法,其特征在于,通過以下步驟對每一訪問序列從空間維度上進行聚類:
1)對每一訪問子序列Cp={(s1,t1),…,(sq,tq),…,(sm,tm)},計算兩個相鄰的訪問請求(sq,tq)與(sq+1,tq+1)的域名相似度Similarity(sq,sq+1),其中q為訪問序列Cp中訪問請求的序號;
2)若域名相似度Similarity(sq,sq+1)大于設定閾值γ,則將該訪問子序列Cp從此切開,得到域名訪問序列。
5.如權利要求4所述的方法,其特征在于,域名相似度其中Client(sq)為訪問了訪問域名sq的客戶端集合。
6.如權利要求1所述的方法,其特征在于,得到域名語義向量的方法包括:使用word2vec的CBOW模式。
7.一種存儲介質,所述存儲介質中存儲有計算機程序,其中,所述計算機程序被設置為運行時執行權利要求1-6中任一所述方法。
8.一種電子裝置,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行如權利要求1-6中任一所述方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110371772.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種任務調度的方法和分布式系統
- 下一篇:在線排污水封裝置





