[發明專利]一種基于語義特征提取的惡意網頁識別方法有效

申請號：	202011554458.3	申請日：	2020-12-24
公開（公告）號：	CN112541476B	公開（公告）日：	2023-09-29
發明（設計）人：	李志雄;林宜雄	申請（專利權）人：	西安交通大學
主分類號：	G06V30/19	分類號：	G06V30/19;G06V30/148;G06V30/164;G06F16/958;G06V10/764;G06V10/82;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08
代理公司：	西安通大專利代理有限責任公司 61200	代理人：	王艾華
地址：	710049 ***	國省代碼：	陜西;61
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語義特征提取惡意網頁識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于語義特征提取的惡意網頁識別方法，其特征在于，包括如下步驟：

S1，獲取網頁源碼；

S2，利用網頁源碼進行數據預處理，預處理包括如下步驟：

S2-1，提取網頁中的文本和圖像；

S2-2，識別S2-1中該網頁所提取圖像中的文本；

S3，通過BiLSTM-CNN神經網絡對S2-1和S2-2中提取的文本進行處理，實現對網頁的進行識別，判斷所識別的網頁為合法網頁還是惡意網頁；

S2-1中，提取網頁中的文本時，對Unicode字符進行轉義處理，基于html解析器提取文本，基于beautifulsoup對網頁Dom樹進行重構；

基于beautifulsoup對網頁Dom樹進行重構時，對該Dom樹進行深度優先遍歷，掃過樹中的每個非葉子節點，如果某個節點的屬性是文本化標簽，則利用soup.delete(）方法該節點從Dom樹中去除，對Dom樹遍歷完成后，得到新的Dom樹，對新的Dom樹進行二次序列化，生成一份新的html文本；

S2-2中，通過OCR方法識別出圖像的文本，對所提取圖像進行分割，使圖像尺寸滿足OCR接口的長寬限制；

基于PhantomJs對提取的圖像進行分割，對于過長的圖片，利用Canny算法進行圖片分割；

所述S2還包括S2-3，S2-3包括：基于word2vec詞向量方法，將S2-1和2-2中得到的過長的文本進行截取，獲取具有不良關鍵詞的句子以及與該句子緊鄰的句子，得到待檢測文本；

S3中，通過BiLSTM-CNN神經網絡對S2-3獲取的待檢測文本進行處理；

S2-3包括如下步驟：

S2-3-1，獲取經過人工驗證后的不良關鍵詞集合E（w）；

S2-3-2，將待檢測文本進行分詞，得到待檢測文本詞匯集合D(w）；通過詞-詞向量對應模型，將E(w）和D(w）中的詞匯進行向量映射，得到不良關鍵詞詞向量集合Ve(w）和待檢測關鍵詞詞向量集合Vd(w）；

S2-3-3，根據歐式距離度量Ve(w）和Vd(w）之間的相似性，獲取向量間閾值大于預設值的前預設數量的最近似關鍵詞；

S2-3-4，對待檢測文本中的句子進行統計，選擇包含S2-3-3得到的最近似關鍵詞的句子，并且將這些句子的上下緊鄰的句子加入到句子集合中，經過去重后，得到最終的待檢測文本；

S2-3-2中，當D(w）中存在不能在E(w）中找到對應詞向量的詞時，將這些詞用預設符號表示，或者將這些詞從D(w）中剝離。

2.根據權利要求1所述的一種基于語義特征提取的惡意網頁識別方法，其特征在于，利用Canny算法進行圖片分割時，首先通過濾波消除噪聲，然后計算梯度的幅值和方向，選擇Sobel算子計算梯度的幅值和方向，公式如下：

對計算后的結果進行非最大值抑制，然后使用雙閾值連接邊緣，完成圖像分割。

3.根據權利要求1所述的一種基于語義特征提取的惡意網頁識別方法，其特征在于，BiLSTM-CNN神經網絡中，CNN層選擇三種卷積核，三種卷積核分別為3*3、4*4和5*5，三種卷積核數目都為128。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于西安交通大學，未經西安交通大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011554458.3/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：便攜式空氣水壺
下一篇：一種含有雙子季銨鹽的表面活性劑組合物

同類專利

專利分類

G 物理

G06 計算；推算；計數

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】