[發(fā)明專利]一種基于類自然語(yǔ)言特征的算法生成域名檢測(cè)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710243526.6 | 申請(qǐng)日: | 2017-04-14 |
| 公開(公告)號(hào): | CN107046586B | 公開(公告)日: | 2019-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 陳興蜀;朱毅;江天宇;曾雪梅;陳敬涵 | 申請(qǐng)(專利權(quán))人: | 四川大學(xué) |
| 主分類號(hào): | H04L29/12 | 分類號(hào): | H04L29/12;H04L29/06 |
| 代理公司: | 成都信博專利代理有限責(zé)任公司 51200 | 代理人: | 張輝 |
| 地址: | 610065 四川*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自然語(yǔ)言 特征 算法 生成 域名 檢測(cè) 方法 | ||
本發(fā)明公開了一種基于類自然語(yǔ)言特征的算法生成域名檢測(cè)方法,包括以下步驟:步驟1:選取域名語(yǔ)料庫(kù),并針對(duì)域名語(yǔ)料庫(kù)使用特征提取模塊進(jìn)行特征提取;步驟2:針對(duì)域名語(yǔ)料庫(kù)進(jìn)行參數(shù)學(xué)習(xí),得到各項(xiàng)特征的系統(tǒng)參數(shù),獲得基于語(yǔ)料庫(kù)的檢測(cè)模型;步驟3:通過(guò)數(shù)據(jù)包嗅探模塊獲取DNS服務(wù)器的請(qǐng)求域名信息;步驟4:根據(jù)請(qǐng)求域名信息使用特征提取模塊進(jìn)行特征提取;步驟5:在真實(shí)環(huán)境中根據(jù)檢測(cè)模型對(duì)域名進(jìn)行檢測(cè)。本發(fā)明可以檢測(cè)出層出不窮的新型算法生成域名,對(duì)域名進(jìn)行分級(jí)分別對(duì)每級(jí)域名進(jìn)行特征提取,提高了檢測(cè)的精確度。
技術(shù)領(lǐng)域
本發(fā)明涉及算法生成域名檢測(cè)領(lǐng)域,特別是一種基于類自然語(yǔ)言特征的算法生成域名檢測(cè)方法。
背景技術(shù)
域名系統(tǒng)是互聯(lián)網(wǎng)中連接用戶與互聯(lián)網(wǎng)的橋梁,但由于其本身協(xié)議設(shè)計(jì)的脆弱性,大量的惡意行為通過(guò)域名系統(tǒng)進(jìn)行控制和攻擊,例如僵尸網(wǎng)絡(luò)、木馬病毒及高級(jí)持續(xù)威脅(Advanced Persistent Threat,APT)攻擊等。同時(shí),在網(wǎng)絡(luò)攻擊中大量使用了DNS定位技術(shù)、快速域名變換技術(shù)等域名生成技術(shù),因此對(duì)生成域名進(jìn)行檢測(cè)顯得尤為重要。目前,針對(duì)算法生成域名的檢測(cè)主要可以分為以下兩類:1)基于DNS交互報(bào)文進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的深度報(bào)文檢測(cè)(Deep Packet Inspection,DPI)檢測(cè)方法;2)基于域名字符串本身的特征進(jìn)行檢測(cè)。
基于DNS交互報(bào)文進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的DPI檢測(cè)方法主要基于DNS的通信行為、活動(dòng)特征等進(jìn)行檢測(cè),從而達(dá)到對(duì)算法生成域名的檢測(cè)。比如,通過(guò)挖掘惡意域名有別于合法域名的通信特征以發(fā)現(xiàn)惡意域名;通過(guò)觀察域名的字符組成及其查詢請(qǐng)求者的相似性來(lái)聚類和檢測(cè)僵尸網(wǎng)絡(luò)使用的域名;通過(guò)統(tǒng)計(jì)域名查詢請(qǐng)求的時(shí)間分布、域名映射IP地址的空間分布、生存時(shí)間值(Time To Live,TTL)時(shí)間長(zhǎng)短以及域名字面特征,發(fā)現(xiàn)惡意域名等。
基于域名字符串詞法特征進(jìn)行檢測(cè)的方法主要是指通過(guò)提取域名的詞法特征使用機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)算法生成域名的檢測(cè)。比如:通過(guò)統(tǒng)計(jì)URL長(zhǎng)度、主機(jī)名長(zhǎng)度、點(diǎn)的數(shù)目來(lái)檢測(cè)釣魚網(wǎng)站和郵件廣告使用的惡意URL;通過(guò)字頻分布特征以及二元組的頻率分布特征借助Kullback-Leibler差異(Kullback-Leibler Divergence,KL距離)等距離測(cè)度算法進(jìn)行檢測(cè);通過(guò)擴(kuò)展語(yǔ)言學(xué)特征識(shí)別算法生成域名等。
當(dāng)前針對(duì)算法生成域名的檢測(cè)方法,根據(jù)實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的DPI檢測(cè)方法,大部分針對(duì)特定攻擊或特定環(huán)境其通用性較差;根據(jù)域名字符串詞法特征進(jìn)行檢測(cè)的方法,部分是針對(duì)特定域名生成算法,其檢測(cè)精度較低,部分檢測(cè)方法需要依賴于龐大的語(yǔ)料庫(kù),具有較高的空間開銷和計(jì)算復(fù)雜度。然而隨著網(wǎng)絡(luò)及應(yīng)用環(huán)境日趨復(fù)雜,原有策略難以適應(yīng)現(xiàn)有海量數(shù)據(jù)環(huán)境下層出不窮的惡意域名生成算法,因此提高生成域名檢測(cè)方法的通用性和準(zhǔn)確度以滿足現(xiàn)有環(huán)境要求是亟待解決的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于類自然語(yǔ)言特征的算法生成域名檢測(cè)方法,解決針對(duì)特定攻擊或特定環(huán)境其通用性較差的問(wèn)題,可以檢測(cè)出層出不窮的新型算法生成域名,對(duì)域名進(jìn)行分級(jí)分別對(duì)每級(jí)域名進(jìn)行特征提取,提高檢測(cè)的精確度。
為解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案是:
一種基于類自然語(yǔ)言特征的算法生成域名檢測(cè)方法,包括以下步驟:
步驟1:選取域名語(yǔ)料庫(kù),并針對(duì)域名語(yǔ)料庫(kù)使用特征提取模塊進(jìn)行特征提取;
步驟2:針對(duì)域名語(yǔ)料庫(kù)進(jìn)行參數(shù)學(xué)習(xí),得到各項(xiàng)特征的系統(tǒng)參數(shù),獲得基于語(yǔ)料庫(kù)的檢測(cè)模型;
步驟3:通過(guò)數(shù)據(jù)包嗅探模塊獲取DNS服務(wù)器的請(qǐng)求域名信息;
步驟4:根據(jù)請(qǐng)求域名信息使用特征提取模塊進(jìn)行特征提取;
步驟5:在真實(shí)環(huán)境中根據(jù)檢測(cè)模型對(duì)域名進(jìn)行檢測(cè)。
進(jìn)一步的,所述特征提取模塊計(jì)算過(guò)程為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710243526.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種自然語(yǔ)言的搜索方法及系統(tǒng)
- 基于交互上下文處理自然語(yǔ)言方法
- 計(jì)算機(jī)化的自然語(yǔ)言查詢意圖分派
- 自然語(yǔ)言描述信息的生成方法及裝置
- 風(fēng)格可定制的文本生成
- 多輪預(yù)制對(duì)話
- 改變應(yīng)答以提供表現(xiàn)豐富的自然語(yǔ)言對(duì)話的方法、計(jì)算機(jī)裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言查詢的轉(zhuǎn)換
- 一種自然語(yǔ)言處理方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 自然語(yǔ)言理解模型訓(xùn)練方法、自然語(yǔ)言理解方法及裝置





