[發明專利]一種惡意網頁識別方法有效
| 申請號: | 202010012212.7 | 申請日: | 2020-01-07 |
| 公開(公告)號: | CN111198995B | 公開(公告)日: | 2023-03-24 |
| 發明(設計)人: | 廖永建;王勇;王棟;吳宇;梁藝寬 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06N3/0442;G06N3/0464;G06N3/08 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 夏琴 |
| 地址: | 611731 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 惡意 網頁 識別 方法 | ||
本發明公開了一種惡意網頁識別方法,包括如下步驟:步驟1,獲取惡意網頁數據集,并通過數據預處理得到惡意網頁的訓練集和測試集;步驟2,利用Char?CNN模型獲取訓練集和測試集的字符級嵌入;步驟3,構建BiLSTM?Attention神經網絡模型;步驟4,利用訓練集及其字符級嵌入,以及靜態詞嵌入訓練步驟3構建的BiLSTM?Attention神經網絡模型;步驟5,利用測試集及其字符級嵌入,以及靜態詞嵌入驗證步驟4訓練好的BiLSTM?Attention神經網絡模型;步驟6,經過步驟5驗證后,將訓練好的BiLSTM?Attention神經網絡模型用于對用戶訪問的網頁數據進行惡意網頁識別。本發明采用基于attention機制的雙向長短時記憶循環神經網絡,同時還使用字符級嵌入與靜態詞嵌入相結合的方法,實現了惡意網頁識別的目的。
技術領域
本發明涉及互聯網安全技術領域,尤其是一種惡意網頁識別方法。
背景技術
近年來隨著互聯網行業不斷發展,網絡已經成為了人們生活中不可缺少的一部分。但與此同時,利用互聯網的惡意犯罪活動也在不斷的增長。利用惡意網頁來進行釣魚攻擊,推廣垃圾廣告,引導下載惡意軟件等操作是互聯網犯罪的主要活動。根據全球中文釣魚網站現狀統計分析報告(2016年和中國反釣魚聯盟近年來的報告可知中國是受到惡意網頁困擾比例最大的國家,并且惡意網頁數量在逐年快速增長。如何快速有效的識別惡意網頁,已經成為有待解決的網絡空間安全問題之一。
傳統的識別惡意網頁方法通常為基于黑名單技術的識別方法。也是現在在工業界應用最多的方法。黑名單技術是維護一個惡意域名列表,如果訪問的域名不在惡意域名列表內,那么瀏覽器將認為這是一個正常的域名,如果在列表內,那么則認為是一個惡意域名。這種方法的優點在于技術實現簡單,而且可以準確識別已經確認的惡意網頁。但缺點在于不能識別以前未出現過的惡意域名,而且需要技術人員一直維護惡意域名列表。
近年來隨著機器學習技術的發展,有越來越多的人將機器學習技術應用于惡意網頁檢測。利用人工從url鏈接提取url長度,是否為https鏈接,域名長度等等特征,又或者利用蜜罐技術檢測網頁的內容,檢測是否有惡意腳本,檢測網站上的圖片是否為違規圖片等等,然后再基于機器學習算法如svm,隨機森林等算法進行分類。但這種方法非常依賴于網絡安全方面的專家,需要對惡意網頁方面非常熟悉的人來對惡意網頁數據集進行人工特征提取。人工提取的特征對于最后分類結果的好壞影響非常大。
發明內容
本發明所要解決的技術問題是:針對上述存在的問題,提供一種惡意網頁識別方法,該方法利用字符級嵌入和雙向長短時記憶循環神經網絡(Bi LSTM)直接對URL鏈接進行分類,從而達到識別惡意網頁的目的。
本發明采用的技術方案如下:
一種惡意網頁識別方法,包括如下步驟:
步驟1,獲取惡意網頁數據集,并通過數據預處理得到惡意網頁的訓練集和測試集;
步驟2,利用Char-CNN模型獲取訓練集和測試集的字符級嵌入;
步驟3,構建BiLSTM-Attention神經網絡模型;
步驟4,利用訓練集及其字符級嵌入,以及靜態詞嵌入訓練步驟3構建的BiLSTM-Attention神經網絡模型;
步驟5,利用測試集及其字符級嵌入,以及靜態詞嵌入驗證步驟4訓練好的BiLSTM-Attention神經網絡模型;
步驟6,經過步驟5驗證后,將訓練好的BiLSTM-Attention神經網絡模型用于對用戶訪問的網頁數據進行惡意網頁識別。
綜上所述,由于采用了上述技術方案,本發明的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010012212.7/2.html,轉載請聲明來源鉆瓜專利網。





