[發明專利]DGA域名檢測模型的訓練方法、系統、應用方法及系統在審
| 申請號: | 202211104087.8 | 申請日: | 2022-09-09 |
| 公開(公告)號: | CN115758263A | 公開(公告)日: | 2023-03-07 |
| 發明(設計)人: | 王海泉;白曉杉;池程;鄭喬露 | 申請(專利權)人: | 北京航空航天大學;中國信息通信研究院 |
| 主分類號: | G06F18/2431 | 分類號: | G06F18/2431;G06F18/214;G06F40/30;G06F40/279;G06F16/33;G06N3/0464;G06N3/0442 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 劉芳 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | dga 域名 檢測 模型 訓練 方法 系統 應用 | ||
1.一種DGA域名檢測模型的訓練方法,其特征在于,所述訓練方法包括:
獲取域名數據,所述域名數據包括DGA域名數據和合法域名數據,所述DGA域名數據包括基于單詞表生成的DGA家族域名和域名字符數量小于預設閾值的DGA家族域名;
對所述域名數據按照字符進行劃分,得到域名字符序列;
對所述域名數據進行分詞處理,得到域名分詞序列;
為所述域名分詞序列中每一元素標注語義標簽,得到語義標簽序列;
將所述域名字符序列與所述語義標簽序列合并,得到域名字符拓展序列;
基于卷積神經網絡和長短期記憶神經網絡,構建DGA域名檢測模型,所述DGA域名檢測模型包括依次連接的輸入層、詞嵌入層、多層卷積層、全連接層、LSTM層和輸出層,所述詞嵌入層用于對輸入的域名字符拓展序列進行編碼得到對應的詞向量矩陣;所述多層卷積層、全連接層和LSTM層用于從所述詞向量矩陣中提取域名特征,所述輸出層用于根據域名特征輸出域名檢測結果;
將所述域名字符拓展序列輸入DGA域名檢測模型;
根據所述DGA域名檢測模型的輸出以及域名字符拓展序列對應的域名的實際類別,確定損失函數;
根據所述損失函數優化DGA域名檢測模型的參數,以對所述DGA域名檢測模型進行訓練,得到訓練好的DGA域名檢測模型。
2.根據權利要求1所述的DGA域名檢測模型的訓練方法,其特征在于,所述對所述域名數據按照字符進行劃分,得到域名字符序列,具體包括:
以單個字符為單位,對所述域名數據進行劃分,得到域名字符序列X=(c1,c2,...,cL),其中,CL表示域名字符序列中第L個元素,L表示域名長度。
3.根據權利要求1所述的DGA域名檢測模型的訓練方法,其特征在于,所述對所述域名數據進行分詞處理,得到域名分詞序列,具體包括:
采用wordninja開源分詞器對域名數據分別進行分詞處理,得到域名分詞序列X'=(α1,α2,...,αn),其中,αn表示域名分詞序列中第n個元素。
4.根據權利要求3所述的DGA域名檢測模型的訓練方法,其特征在于,所述為所述域名分詞序列中每一元素標注語義標簽,得到語義標簽序列,具體包括:
根據語義標簽的類別,對所述域名分詞序列X'=(α1,α2,...,αn)中每一元素進行語義標簽標注,每一元素標注有對應的語義標簽類別,得到語義標簽序列T=(t1,t2,...,tn),其中,tn表示語義標簽序列中第n個元素。
5.根據權利要求4所述的DGA域名檢測模型的訓練方法,其特征在于,所述語義標簽的類別包括:數字類、“-”分隔符、“.”分隔符、單個字母類、雙字母組bi-gram類和英語單詞類,所述英語單詞類包括名詞類、動詞類、形容詞類和其他詞類。
6.根據權利要求4所述的DGA域名檢測模型的訓練方法,其特征在于,所述將所述域名字符序列與所述語義標簽序列合并,得到域名字符拓展序列,具體包括:
將域名字符序列X=(c1,c2,...,cL)與語義標簽序列T=(t1,t2,...,tn)中的所有元素進行拼接處理,得到域名字符拓展序列X”=(c1,c2,...,cL,t1,t2,...,tn),其中,CL表示域名字符序列中第L個元素,L表示域名長度,tn表示語義標簽序列中第n個元素。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學;中國信息通信研究院,未經北京航空航天大學;中國信息通信研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211104087.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種發光橡皮擦及其制備方法
- 下一篇:圖像處理系統及其方法





