[發(fā)明專利]基于GAN和Char-CNN的DGA域名檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010007697.0 | 申請(qǐng)日: | 2020-01-05 |
| 公開(公告)號(hào): | CN111209497B | 公開(公告)日: | 2022-03-04 |
| 發(fā)明(設(shè)計(jì))人: | 楊超;楊延洲;蘇銳丹;鄭昱;尤偉;陳明哲;王瀟皓 | 申請(qǐng)(專利權(quán))人: | 西安電子科技大學(xué) |
| 主分類號(hào): | G06F16/955 | 分類號(hào): | G06F16/955;G06N3/04;G06N3/08;H04L9/40 |
| 代理公司: | 陜西電子工業(yè)專利中心 61205 | 代理人: | 陳宏社;王品華 |
| 地址: | 710071*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 gan char cnn dga 域名 檢測(cè) 方法 | ||
本發(fā)明提出了一種基于GAN和Char?CNN的DGA域名檢測(cè)方法,用于解決現(xiàn)有技術(shù)存在的低隨機(jī)性DGA域名的檢測(cè)召回率低的問題,實(shí)現(xiàn)步驟為:獲取訓(xùn)練樣本集和驗(yàn)證樣本集;構(gòu)建生成對(duì)抗網(wǎng)絡(luò)GAN和字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)Char?CNN;對(duì)生成對(duì)抗網(wǎng)絡(luò)GAN進(jìn)行迭代訓(xùn)練;獲取增廣訓(xùn)練集;對(duì)字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)Char?CNN進(jìn)行迭代訓(xùn)練;基于訓(xùn)練好的字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)Char?CNN`對(duì)域名進(jìn)行檢測(cè)。本發(fā)明利用GAN生成對(duì)抗域名用以增廣數(shù)據(jù)集,提升了訓(xùn)練樣本集的豐富度,殘差塊結(jié)構(gòu)降低了檢測(cè)模型的錯(cuò)誤率,提高了低隨機(jī)性DGA域名的檢測(cè)召回率,同時(shí)Char?CNN需要計(jì)算的超參數(shù)少,縮短了檢測(cè)模型的訓(xùn)練時(shí)間。
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,涉及一種DGA域名檢測(cè)方法,特別涉及一種基于GAN和Char-CNN的DGA域名檢測(cè)方法,可用于定位感染主機(jī)、關(guān)閉僵尸網(wǎng)絡(luò)和防御網(wǎng)絡(luò)攻擊。
背景技術(shù)
DGA域名是一種根據(jù)數(shù)字、日期、Twitter熱點(diǎn)等隨機(jī)種子,采用域名生成算法DGA(Domain Generation Algorithms)定期生成的域名。網(wǎng)絡(luò)攻擊者注冊(cè)DGA域名,作為僵尸程序與命令和控制服務(wù)器通信的媒介,這些大量潛在的DGA域名使執(zhí)法人員很難有效地關(guān)閉僵尸網(wǎng)絡(luò)。DGA域名嚴(yán)重威脅網(wǎng)絡(luò)主機(jī)的安全,尤其是新出現(xiàn)的低隨機(jī)性DGA域名隱蔽性強(qiáng),威脅更大,對(duì)DGA域名進(jìn)行有效檢測(cè)具有重要意義。DGA域名檢測(cè)任務(wù)就是對(duì)域名的特征進(jìn)行提取,通過對(duì)提取的特征進(jìn)行計(jì)算,輸出預(yù)測(cè)概率,進(jìn)而檢測(cè)域名是否為DGA域名。評(píng)價(jià)DGA域名檢測(cè)效果的指標(biāo)有很多,如受試者工作特征曲線、F1值、檢測(cè)召回率等,其中,檢測(cè)召回率表示被檢測(cè)出的DGA域名占所有DGA域名的比值,因而對(duì)檢測(cè)召回率指標(biāo)的評(píng)價(jià)較為重要。
DGA域名檢測(cè)方法可分為基于黑名單的DGA域名檢測(cè)方法、基于機(jī)器學(xué)習(xí)的DGA域名檢測(cè)方法和基于深度學(xué)習(xí)的DGA域名檢測(cè)方法。其中,基于黑名單的DGA域名檢測(cè)方法通過判斷域名是否在預(yù)先設(shè)置的黑名單列表中,來檢測(cè)域名是否為DGA域名,黑名單需要不斷更新,導(dǎo)致該方法實(shí)時(shí)性差。基于機(jī)器學(xué)習(xí)的DGA域名檢測(cè)方法先手動(dòng)提取域名的長(zhǎng)度、信息熵、元輔音字符比例和重復(fù)字符數(shù)等特征,再使用支持向量機(jī)、隨機(jī)森林等機(jī)器學(xué)習(xí)算法檢測(cè)DGA域名,可進(jìn)行實(shí)時(shí)檢測(cè)。基于深度學(xué)習(xí)的DGA域名檢測(cè)方法通過神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取域名的潛在特征,經(jīng)過神經(jīng)元計(jì)算后輸出預(yù)測(cè)概率,從而檢測(cè)域名是否為DGA域名,在基于深度學(xué)習(xí)的DGA域名檢測(cè)方法中,特征維度的多少、訓(xùn)練樣本集的豐富度和檢測(cè)模型的錯(cuò)誤率是影響召回率的主要因素。
傳統(tǒng)的基于深度學(xué)習(xí)的DGA域名檢測(cè)方法都是通過單個(gè)神經(jīng)網(wǎng)絡(luò)提取特征,特征提取的維度單一,為解決這一問題,近些年又陸續(xù)提出了通過集成神經(jīng)網(wǎng)絡(luò)提取域名多維度特征,進(jìn)而檢測(cè)DGA域名的方法。例如,中電長(zhǎng)城網(wǎng)際系統(tǒng)應(yīng)用有限公司的羅赟騫等人在2018年第37卷第10期的《信息技術(shù)與網(wǎng)絡(luò)安全》上發(fā)表了論文“基于深度學(xué)習(xí)的集成DGA域名檢測(cè)方法”,提出了一種基于深度學(xué)習(xí)的集成DGA域名檢測(cè)方法。該方法融合深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和卷積神經(jīng)網(wǎng)絡(luò)CNN,構(gòu)建了由字符嵌入層、特征提取層和分類層三部分組成的集成檢測(cè)模型。特征提取層采用CNN模型和RNN模型分別從空間和時(shí)間的維度自動(dòng)提取輸入字符的特征,有效提高了DGA域名的檢測(cè)召回率。但是該方法仍然存在不足:訓(xùn)練樣本集中包含的低隨機(jī)性DGA域名的數(shù)量太少,豐富度低,同時(shí)在網(wǎng)絡(luò)層次過深時(shí)會(huì)出現(xiàn)梯度消失的問題,錯(cuò)誤率升高,導(dǎo)致低隨機(jī)性DGA域名的檢測(cè)召回率低;循環(huán)神經(jīng)網(wǎng)絡(luò)RNN中每個(gè)時(shí)間步的計(jì)算都依賴于前一個(gè)時(shí)間步的計(jì)算和輸出,需要計(jì)算的超參數(shù)多,增加了檢測(cè)模型的訓(xùn)練時(shí)間。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)上述現(xiàn)有技術(shù)的不足,提出一種基于GAN和Char-CNN的DGA域名檢測(cè)方法,用于解決現(xiàn)有技術(shù)存在的低隨機(jī)性DGA域名的檢測(cè)召回率低的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案包括如下步驟:
(1)獲取訓(xùn)練樣本集和驗(yàn)證樣本集:
(1a)從熱門域名集Alexa中順次選取前L個(gè)熱門域名組成訓(xùn)練樣本集A,L≥600000;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安電子科技大學(xué),未經(jīng)西安電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010007697.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種用于選擇光記錄裝置最優(yōu)寫入?yún)?shù)的方法
- 用于選擇最佳寫入?yún)?shù)的方法和裝置以及供所述方法和裝置使用的光學(xué)記錄媒質(zhì)
- 一種無損壓縮方法及系統(tǒng)
- 深度學(xué)習(xí)人臉識(shí)別網(wǎng)絡(luò)優(yōu)化方法、裝置及存儲(chǔ)介質(zhì)
- 一種定向凝固過程鑄件雀斑缺陷數(shù)值預(yù)測(cè)方法
- 參數(shù)校驗(yàn)方法及裝置
- 一種基于區(qū)塊鏈的鏈上文本數(shù)據(jù)確權(quán)方法
- 基于GAN和Char-CNN的DGA域名檢測(cè)方法
- 一種大數(shù)據(jù)量環(huán)境中數(shù)據(jù)運(yùn)算的方法和設(shè)備
- 一種壓氣機(jī)特性修正方法
- 圖像語義標(biāo)注的設(shè)備和方法及其模型的生成方法和系統(tǒng)
- 使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理
- 為數(shù)據(jù)庫(kù)確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 確定卷積神經(jīng)網(wǎng)絡(luò)CNN模型的裝置和方法
- 采用嵌入式系統(tǒng)中的小規(guī)模卷積神經(jīng)網(wǎng)絡(luò)模塊的人臉檢測(cè)
- 針對(duì)深度通道和卷積神經(jīng)網(wǎng)絡(luò)圖像和格式使用相機(jī)設(shè)備的方法和系統(tǒng)
- 處理卷積神經(jīng)網(wǎng)絡(luò)的方法
- CNN加速器和電子設(shè)備
- 一種基于混合神經(jīng)網(wǎng)絡(luò)的腦電時(shí)空特征學(xué)習(xí)與情感分類方法
- 一種基于FPGA的深度學(xué)習(xí)加速方法





