[發明專利]一種基于自動特征抽取的惡意URL檢測系統及其方法有效
| 申請號: | 201810563850.0 | 申請日: | 2018-06-04 |
| 公開(公告)號: | CN109005145B | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 鄒福泰;沈展;沈倩穎;馬詩慧;吳越;齊開悅 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06F21/56;G06F16/955;G06F16/35;G06N3/02 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動 特征 抽取 惡意 url 檢測 系統 及其 方法 | ||
1.一種基于自動特征抽取的惡意URL檢測系統,其特征在于,包括預處理模塊、并行學習模塊和檢測分類模塊;
其中,所述預處理模塊包括URL結構信息預處理、文本信息預處理和圖像信息預處理,是將網頁URL作為輸入,經過預處理之后,將預處理提取的URL結構化特征、網頁文本內容和結構特征以及圖像特征分別轉化成三個包含特征向量的數字矩陣,并輸出給所述并行學習模塊;
所述并行學習模塊包括三種不同的深度卷積網絡,分別為n-gram卷積網絡、文本卷積神經網絡TextCNN和圖像卷積網絡,所述n-gram卷積網絡對包含所述URL結構化特征的數字矩陣進行處理,所述文本卷積神經網絡TextCNN對包含所述網頁文本內容和結構特征的數字矩陣進行處理,所述圖像卷積網絡對包含所述圖像特征的數字矩陣進行處理;處理結束之后,分別得到三個概率矩陣,并把所述三個概率矩陣輸出給所述檢測分類模塊;
所述檢測分類模塊包括一個全連接神經網絡,輸入的所述三個概率矩陣經過所述全連接神經網絡的進一步綜合處理,給出最終的分類結果以及評估報告;
所述綜合處理是輸入的所述三個概率矩陣經過所述全連接神經網絡進行集中的學習。
2.如權利要求1所述的基于自動特征抽取的惡意URL檢測系統,其特征在于,所述URL結構信息預處理、所述文本信息預處理和所述圖像信息預處理三者之間保持相互獨立。
3.如權利要求1所述的基于自動特征抽取的惡意URL檢測系統,其特征在于,所述n-gram卷積網絡、所述TextCNN和所述圖像卷積網絡是三種獨立的不同算法的深度學習網絡。
4.如權利要求1所述的基于自動特征抽取的惡意URL檢測系統,其特征在于,在所述全連接神經網絡的進一步綜合處理過程中,還要整合URL的Whois信息。
5.如權利要求1所述的基于自動特征抽取的惡意URL檢測系統,其特征在于,在所述全連接神經網絡的進一步綜合處理過程中,是通過softmax層對結果進行輸出。
6.一種基于自動特征抽取的惡意URL檢測方法,其特征在于,所述方法包括以下步驟:
步驟1、通過輸入的網頁URL獲取URL結構信息、網頁文本信息和網頁圖像信息,對獲得的所述URL結構信息、所述網頁文本信息和所述網頁圖像信息進行預處理,從中分別提取URL結構化特征、網頁文本內容和結構特征以及圖像特征;
步驟2、將提取的所述URL結構化特征、所述網頁文本內容和結構特征以及所述圖像特征分別轉化成三個包含特征向量的數字矩陣,并輸出給并行學習模塊;
步驟3、在所述并行學習模塊中,使用三種不同的深度卷積網絡,分別為n-gram卷積網絡、文本卷積神經網絡TextCNN和圖像卷積網絡,對所述三個包含特征向量的數字矩陣進行處理,輸出三個相應的概率矩陣;所述n-gram卷積網絡對包含所述URL結構化特征的數字矩陣進行處理,所述文本卷積神經網絡TextCNN對包含所述網頁文本內容和結構特征的數字矩陣進行處理,所述圖像卷積網絡對包含所述圖像特征的數字矩陣進行處理;處理結束之后,所述并行學習模塊把所述三個相應的概率矩陣輸出給檢測分類模塊;
步驟4、在所述檢測分類模塊,輸入的所述三個相應的概率矩陣經過全連接神經網絡的進一步綜合處理,給出最終的網頁分類結果以及評估報告;
所述綜合處理是輸入的所述三個相應的概率矩陣經過所述全連接神經網絡進行集中的學習。
7.如權利要求6所述的基于自動特征抽取的惡意URL檢測方法,其特征在于,所述步驟1還包括:
步驟1.1、通過輸入的所述網頁URL訪問網頁,獲得網頁源碼,從中獲得所述文本信息;
步驟1.2、對所述網頁源碼進行解析,獲得所述網頁的圖片信息;
步驟1.3、對所述文本信息進行字符串過濾,把所述圖片信息裁剪成合適的大小,提取所述URL結構化特征、所述網頁文本內容和結構特征以及所述圖像特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810563850.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種身份認證方法、設備、介質和系統
- 下一篇:一種獲取賬號信息的方法及網關





