[發明專利]DGA域名檢測模型的訓練方法、系統、應用方法及系統在審
| 申請號: | 202211104087.8 | 申請日: | 2022-09-09 |
| 公開(公告)號: | CN115758263A | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 王海泉;白曉杉;池程;鄭喬露 | 申請(專利權)人: | 北京航空航天大學;中國信息通信研究院 |
| 主分類號: | G06F18/2431 | 分類號: | G06F18/2431;G06F18/214;G06F40/30;G06F40/279;G06F16/33;G06N3/0464;G06N3/0442 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 劉芳 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | dga 域名 檢測 模型 訓練 方法 系統 應用 | ||
本發明涉及一種DGA域名檢測模型的訓練方法、系統、應用方法及系統,屬于域名檢測技術領域,訓練方法包括:獲取域名數據;對域名數據按照字符進行劃分,得到域名字符序列;對域名數據進行分詞處理,得到域名分詞序列;為域名分詞序列中每一元素標注語義標簽,得到語義標簽序列;將域名字符序列與語義標簽序列合并,得到域名字符拓展序列;基于卷積神經網絡和長短期記憶神經網絡,構建DGA域名檢測模型;根據DGA域名檢測模型的輸出以及域名字符拓展序列對應的域名的實際類別,確定損失函數;根據損失函數優化DGA域名檢測模型的參數,以對DGA域名檢測模型進行訓練,得到訓練好的DGA域名檢測模型,能夠提升域名檢測精度和效果。
技術領域
本發明涉及域名檢測技術領域,特別是涉及一種DGA域名檢測模型的訓練方法、系統、應用方法及系統。
背景技術
DGA(Domain Generation Algorithm)域名是指根據特定算法隨機生成的惡意域名,這種域名通常用于組建僵尸網絡等網絡攻擊活動。因此,對DGA域名進行檢測很有必要。目前,在DGA域名檢測方法中,基于域名字符特征的DGA域名檢測方法依靠其對數據依賴小,檢測響應速度快等優點,逐漸成為了一種主流的檢測方法。該方法整體流程可以分為以下四個部分:一、將域名以單詞或字符為粒度進行劃分,各部分構成輸入序列;二、對輸入序列進行編碼,使用預訓練模型或神經網絡詞嵌入層將域名的各部分映射到對應詞向量上;三、使用循環神經網絡(RNN)、卷積神經網絡(CNN)等深度學習網絡對域名特征進行進一步挖掘;四、使用全連接神經網絡,Softmax或Sigmoid作為激活函數,將模型輸出的高維特征映射到標簽分類上。在構建好由DGA域名和合法域名組成的數據集,按照上述流程進行分類學習,訓練得到模型后,后續即可使用該模型進行DGA域名的檢測。然而,該方法對于基于單詞表生成的DGA家族和域名長度較短(除去頂級域名,剩余域名部分長度為5-10個字符)的DGA家族的檢測精度較低,檢測效果較差。
發明內容
本發明的目的是提供一種DGA域名檢測模型的訓練方法、系統、應用方法及系統,能夠提升域名的檢測精度和檢測效果,尤其是針對基于單詞表生成的DGA家族和域名長度較短的DGA家族的域名。
為實現上述目的,本發明提供了如下方案:
一方面,本發明提出了一種DGA域名檢測模型的訓練方法,所述訓練方法包括:
獲取域名數據,所述域名數據包括DGA域名數據和合法域名數據,所述DGA域名數據包括基于單詞表生成的DGA家族域名和域名字符數量小于預設閾值的DGA家族域名;
對所述域名數據按照字符進行劃分,得到域名字符序列;
對所述域名數據進行分詞處理,得到域名分詞序列;
為所述域名分詞序列中每一元素標注語義標簽,得到語義標簽序列;
將所述域名字符序列與所述語義標簽序列合并,得到域名字符拓展序列;
基于卷積神經網絡和長短期記憶神經網絡,構建DGA域名檢測模型,所述DGA域名檢測模型包括依次連接的輸入層、詞嵌入層、多層卷積層、全連接層、LSTM層和輸出層,所述詞嵌入層用于對輸入的域名字符拓展序列進行編碼得到對應的詞向量矩陣;所述多層卷積層、全連接層和LSTM層用于從所述詞向量矩陣中提取域名特征,所述輸出層用于根據域名特征輸出域名檢測結果;
將所述域名字符拓展序列輸入DGA域名檢測模型;
根據所述DGA域名檢測模型的輸出以及域名字符拓展序列對應的域名的實際類別,確定損失函數;
根據所述損失函數優化DGA域名檢測模型的參數,以對所述DGA域名檢測模型進行訓練,得到訓練好的DGA域名檢測模型。
可選地,所述對所述域名數據按照字符進行劃分,得到域名字符序列,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學;中國信息通信研究院,未經北京航空航天大學;中國信息通信研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211104087.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種發光橡皮擦及其制備方法
- 下一篇:圖像處理系統及其方法





