[發明專利]惡意網址的分類方法、裝置、計算機設備和可讀存儲介質在審
| 申請號: | 202011027013.X | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112115266A | 公開(公告)日: | 2020-12-22 |
| 發明(設計)人: | 陳勁 | 申請(專利權)人: | 奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/906 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 程超 |
| 地址: | 100088 北京市西城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 惡意 網址 分類 方法 裝置 計算機 設備 可讀 存儲 介質 | ||
1.一種惡意網址的分類方法,其特征在于,包括:
獲取目標網址對應的網絡資源;
提取所述網絡資源中的靜態資源和動態資源;
通過預設的第一分類模型分類所述靜態資源,以得到所述目標網址對應的第一分類信息;
通過預設的第二分類模型分類所述動態資源,以得到所述目標網址對應的第二分類信息;以及
根據所述第一分類信息和所述第二分類信息確定所述目標網址所屬的惡意網址類別。
2.根據權利要求1所述的惡意網址的分類方法,其特征在于,
所述靜態資源包括頁面head標簽內的meta字段、頁面標題和/或頁面body標簽內的文字,所述第一分類模型為文本分類模型,
通過預設的第一分類模型分類所述靜態資源,以得到所述目標網址對應的第一分類信息的步驟包括:
根據所述靜態資源構建詞序列;
將所述詞序列輸入所述文本分類模型,其中,所述文本分類模型用于根據所述詞序列確定所述第一分類信息。
3.根據權利要求2所述的惡意網址的分類方法,其特征在于,
根據所述靜態資源構建詞序列的步驟包括:
將所述靜態資源劃分為至少兩個文本類;
對所述文本類進行分詞得到詞序列;
所述文本分類模型包括第一卷積層、第一池化層和第一全連接層,所述第一卷積層包括至少兩個串聯的文本卷積核,將所述詞序列輸入所述文本分類模型的步驟包括:
將每個所述文本類對應的所述詞序列作為一維向量輸入至第一個文本卷積核;
將最后一個所述文本卷積核的輸出輸入至所述第一池化層;
將所述第一池化層的輸出輸入至所述第一全連接層,其中,所述第一全連接層輸出所述第一分類信息。
4.根據權利要求3所述的惡意網址的分類方法,其特征在于,將所述靜態資源劃分為至少兩個文本類的步驟包括:
將所述頁面標題劃分為標題文本類,將所述meta字段劃分為頭文本類,將所述頁面body標簽內的文字劃分為內容文本類。
5.根據權利要求1所述的惡意網址的分類方法,其特征在于,
所述動態資源包括頁面加載的腳本程序和/或css資源文件,所述第二分類模型為二進制分類模型,
通過預設的第二分類模型分類所述動態資源,以得到所述目標網址對應的第二分類信息的步驟包括:
根據所述動態資源構建二進制片段序列;
將所述二進制片段序列輸入所述二進制分類模型,其中,所述二進制分類模型用于根據所述二進制片段序列確定所述第二分類信息。
6.根據權利要求5所述的惡意網址的分類方法,其特征在于,
根據所述動態資源構建二進制片段序列的步驟包括:
將所述動態資源轉化為二進制流;
以相鄰的不同字節長度作為二進制片段單位,對所述二進制流按照單字節長度作為滑動步長進行切分,得到至少兩個二進制片段序列,其中,不同的所述二進制片段序列中的二進制片段的字節長度不同,同一個所述二進制片段序列中的二進制片段的字節長度相同且在相鄰兩個二進制片段中同一位置的字節為相鄰字節;
所述二進制分類模型包括第二卷積層、第二池化層和第二全連接層,所述第二卷積層包括至少兩個并聯的二進制卷積核,將所述二進制片段序列輸入所述二進制分類模型的步驟包括:
將每個所述二進制片段序列輸入至一個二進制卷積核;
將各個所述二進制卷積核的輸出分別輸入至所述第二池化層;
將所述第二池化層的輸出輸入至所述第二全連接層,其中,所述第二全連接層輸出所述第二分類信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司,未經奇安信科技集團股份有限公司;網神信息技術(北京)股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011027013.X/1.html,轉載請聲明來源鉆瓜專利網。





