[發明專利]一種基于語義特征提取的惡意網頁識別方法有效
| 申請號: | 202011554458.3 | 申請日: | 2020-12-24 |
| 公開(公告)號: | CN112541476B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 李志雄;林宜雄 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06V30/19 | 分類號: | G06V30/19;G06V30/148;G06V30/164;G06F16/958;G06V10/764;G06V10/82;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 王艾華 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 特征 提取 惡意 網頁 識別 方法 | ||
1.一種基于語義特征提取的惡意網頁識別方法,其特征在于,包括如下步驟:
S1,獲取網頁源碼;
S2,利用網頁源碼進行數據預處理,預處理包括如下步驟:
S2-1,提取網頁中的文本和圖像;
S2-2,識別S2-1中該網頁所提取圖像中的文本;
S3,通過
S2-1中,提取網頁中的文本時,對
基于
S2-2中,通過
基于PhantomJs對提取的圖像進行分割,對于過長的圖片,利用Canny算法進行圖片分割;
所述S2還包括S2-3,S2-3包括:基于
S3中,通過
S2-3包括如下步驟:
S2-3-1,獲取經過人工驗證后的不良關鍵詞集合
S2-3-2,將待檢測文本進行分詞,得到待檢測文本詞匯集合
S2-3-3,根據歐式距離度量
S2-3-4,對待檢測文本中的句子進行統計,選擇包含S2-3-3得到的最近似關鍵詞的句子,并且將這些句子的上下緊鄰的句子加入到句子集合中,經過去重后,得到最終的待檢測文本;
S2-3-2中,當
2.根據權利要求1所述的一種基于語義特征提取的惡意網頁識別方法,其特征在于,利用Canny算法進行圖片分割時,首先通過濾波消除噪聲,然后計算梯度的幅值和方向,選擇
對計算后的結果進行非最大值抑制,然后使用雙閾值連接邊緣,完成圖像分割。
3.根據權利要求1所述的一種基于語義特征提取的惡意網頁識別方法,其特征在于,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011554458.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:便攜式空氣水壺
- 下一篇:一種含有雙子季銨鹽的表面活性劑組合物





