[發(fā)明專利]一種基于BERT-BiGRU的惡意URL檢測方法有效
| 申請?zhí)枺?/td> | 202110201467.2 | 申請日: | 2021-02-23 |
| 公開(公告)號: | CN112926303B | 公開(公告)日: | 2023-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 任勛益;楊曉曉 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06N3/0455;G06N3/08 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 秦秋星 |
| 地址: | 210012 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 bert bigru 惡意 url 檢測 方法 | ||
本發(fā)明提出一種基于BERT?BiGRU的惡意URL檢測的方法,解決當(dāng)前對于惡意URL檢測識(shí)別準(zhǔn)確度不高的問題。本發(fā)明首先使用BERT模型的Transformer特征提取器,代替了傳統(tǒng)常用的CNN或者RNN的固有模式,利用其能夠提取詞向量的動(dòng)態(tài)特征特點(diǎn)以及其本身并行計(jì)算的優(yōu)點(diǎn),此外由于其多頭自注意力機(jī)制,可以獲得相關(guān)性更強(qiáng)的URL文本特征。然后將訓(xùn)練得到的特征向量,輸入到BiGRU網(wǎng)絡(luò)結(jié)構(gòu),由于其雙向各訓(xùn)練一個(gè)GRU模型,使得序列中每個(gè)詞完整依賴上下文信息,接著把神經(jīng)網(wǎng)絡(luò)向量拼接之后得到的結(jié)果向量,通過全連接層結(jié)合softmax分類器,實(shí)現(xiàn)URL分類。本發(fā)明通過這些模型方法的結(jié)合應(yīng)用,能夠提高URL分類的準(zhǔn)確性和穩(wěn)定性,具有良好的實(shí)施性和實(shí)效性。
技術(shù)領(lǐng)域
本發(fā)明提出了一種基于BERT和BiGRU的惡意URL識(shí)別方法,屬于網(wǎng)絡(luò)安全,自然語言處理,深度學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)等交叉技術(shù)領(lǐng)域。
背景技術(shù)
近年來,文本分類是自然語言處理領(lǐng)域中的一個(gè)重要研究課題,具有重要的理論意義與實(shí)際應(yīng)用價(jià)值。在網(wǎng)絡(luò)安全中,運(yùn)用優(yōu)秀的自然語言處理算法對網(wǎng)絡(luò)中的惡意URL分類,極具現(xiàn)實(shí)意義。
隨著信息技術(shù)的高速發(fā)展,以網(wǎng)絡(luò)作為應(yīng)用的服務(wù)、信息的開放、信息資源與數(shù)據(jù)共享等服務(wù)深入生活的各個(gè)角落,日益廣泛應(yīng)用于生活的點(diǎn)點(diǎn)滴滴中,如今全球范圍內(nèi)爆發(fā)信息革命,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)正在迅速發(fā)展,帶來極大便利同時(shí),網(wǎng)絡(luò)安全問題也開始逐漸復(fù)雜了起來。無論是從企業(yè)還是個(gè)人來說,其隱私信息和安全信息,都已經(jīng)成為網(wǎng)絡(luò)信息安全的保障性問題。
目前在惡意URL檢測方式上,常用的分析方法主要分為基于黑名單和機(jī)器學(xué)習(xí)方式兩大類。其中較為傳統(tǒng)的黑名單技術(shù)已經(jīng)逐漸無法適用于復(fù)雜且多變的原始URL句子,在一些傳統(tǒng)機(jī)器學(xué)習(xí)算法中,有使用Logistic回歸分析、決策樹模型、樸素貝葉斯分類器與支持向量機(jī),這些方法在實(shí)際應(yīng)用中均有利弊。在近年大熱的深度學(xué)習(xí)中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是其中較有代表性的網(wǎng)絡(luò)之一,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)算法通過對輸入的時(shí)序信息進(jìn)行處理,充分挖掘語義信息,提取特征?;谶@一特點(diǎn),在文本分類領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)有著廣泛的運(yùn)用。此后基于RNN而衍生出的LSTM和GRU模型,同樣獲得了更好的效果。
然而究其本質(zhì),因?yàn)镽NN系列模型都依賴于序列的前一狀態(tài),不能夠并行運(yùn)算,所以在商業(yè)化或者工業(yè)化的計(jì)算效率上,要想獲得更大的突破,還需要進(jìn)行大量的研究工作。
發(fā)明內(nèi)容
技術(shù)問題:本發(fā)明使用BERT模型的Transformer編碼器,從原始URL句子中提取特征,充分挖掘句子的文本信息,其次使用結(jié)構(gòu)簡單高效的BiGRU單元進(jìn)行完整上下文學(xué)習(xí),提高對惡意URL識(shí)別的準(zhǔn)確度。
技術(shù)方案:本發(fā)明的一種基于BERT-BiGRU的惡意URL檢測方法系統(tǒng)包括以下步驟:
一種基于BERT-BiGRU的惡意URL檢測方法,包括以下步驟:
步驟1)輸入U(xiǎn)RL數(shù)據(jù)集作為分類任務(wù)中的集合,并且針對數(shù)據(jù)集中重復(fù)或者格式紊亂的數(shù)據(jù),進(jìn)行相應(yīng)的處理;
步驟2)使用步驟1處理后的數(shù)據(jù)集,將其輸入特征處理器Transformer中,利用多頭自注意力機(jī)制動(dòng)態(tài)地生成不同連接的權(quán)重;首先計(jì)算self-attention,對同一個(gè)句子的embedding變換得到Query向量,Key向量,Value向量,之后計(jì)算Attention?Score;多頭注意力機(jī)制即把每一個(gè)self-attention的輸出結(jié)果拼接而成,最后Transformer輸出融合多頭注意力機(jī)制的詞向量特征矩陣;
步驟3)訓(xùn)練一個(gè)BiGRU網(wǎng)絡(luò),將預(yù)處理獲得的向量輸入該網(wǎng)絡(luò)中,BiGRU通過更新門與重置門可保留文本重要特征,確保上下文關(guān)系不會(huì)丟失;
步驟4)最后一個(gè)構(gòu)建softmax分類器,把BiGRU的結(jié)果送入其中,輸出最終分類標(biāo)簽。
所述步驟1)具體如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110201467.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于Bert的意圖確定方法及裝置
- 語言模型的訓(xùn)練方法、裝置和計(jì)算機(jī)設(shè)備
- 融合外部知識(shí)的BERT模型的微調(diào)方法、裝置及計(jì)算機(jī)設(shè)備
- 基于BERT-BTM網(wǎng)絡(luò)的微博突發(fā)事件檢測方法
- 生成文本數(shù)據(jù)的方法、裝置和計(jì)算機(jī)設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的BERT模型的微調(diào)方法及裝置
- 多語言BERT序列標(biāo)注模型的壓縮方法及系統(tǒng)
- BERT模型的優(yōu)化方法及系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于BERT的多特征融合模糊文本分類系統(tǒng)
- 一種基于Bert+BiLSTM+CRF的知識(shí)元自動(dòng)抽取方法
- 基于Smi2Vec的BiGRU藥物毒性預(yù)測系統(tǒng)及預(yù)測方法
- 基于RoBERTa-BiGRU-LAN模型的中文命名實(shí)體識(shí)別方法及裝置
- 一種基于ERNIE-BiGRU的中文文本分類方法
- 基于深度學(xué)習(xí)的預(yù)測化合物蛋白質(zhì)親和力新型編碼方案、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)
- 一種基于BiGRU的智能電表計(jì)量模塊故障預(yù)測與診斷方法
- 基于邊緣注意力機(jī)制的預(yù)測化合物蛋白質(zhì)親和力方法、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)
- 一種預(yù)測化合物蛋白質(zhì)親和力的新型深度學(xué)習(xí)模型、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)
- 基于單獨(dú)注意力機(jī)制的預(yù)測化合物蛋白質(zhì)親和力方法、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)
- 一種基于ATAE-BiGRU的文本方面情感分類方法及系統(tǒng)
- 一種基于自注意力機(jī)制和BiGRU的文本分類方法
- 惡意特征數(shù)據(jù)庫的建立方法、惡意對象檢測方法及其裝置
- 用于檢測惡意鏈接的方法及系統(tǒng)
- 惡意信息識(shí)別方法、惡意信息識(shí)別裝置及系統(tǒng)
- 主動(dòng)式移動(dòng)終端惡意軟件網(wǎng)絡(luò)流量數(shù)據(jù)集獲取方法及系統(tǒng)
- 一種大數(shù)據(jù)告警平臺(tái)系統(tǒng)及其方法
- 一種追溯惡意進(jìn)程的方法、裝置及存儲(chǔ)介質(zhì)
- 一種相似惡意軟件推薦方法、裝置、介質(zhì)和設(shè)備
- 軟件惡意行為檢測方法及系統(tǒng)
- 惡意樣本增強(qiáng)方法、惡意程序檢測方法及對應(yīng)裝置
- 惡意語音樣本的確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





