[發明專利]一種基于內容的垃圾網頁檢測方法及其檢測裝置有效

申請號：	201510502698.1	申請日：	2015-08-14
公開（公告）號：	CN105183784B	公開（公告）日：	2020-04-28
發明（設計）人：	喻梅;孟瑩;于瑞國;周靜;雷霆;田逸塵	申請（專利權）人：	天津大學
主分類號：	G06F16/9535	分類號：	G06F16/9535;G06F16/957;G06F16/958
代理公司：	天津市北洋有限責任專利代理事務所 12201	代理人：	李林娟
地址：	300072***	國省代碼：	天津;12
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于內容垃圾網頁檢測方法及其裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于內容的垃圾網頁檢測方法，其特征在于，所述方法通過PageRank算法、與垃圾網頁相似度的結合實現對垃圾網頁的檢測，所述方法包括以下步驟：

計算所有網頁與種子垃圾網頁的內容最大相似度值，生成相似度集合；

利用PageRank算法對所有網頁進行降序排序；

基于排序結果，從相似度集合中查尋網頁與種子垃圾網頁間的內容相似度值；

比較相似度值與相似度閾值，對網頁進行檢測，并將檢測出的垃圾網頁加入到垃圾網頁集合中；

所述計算所有網頁與種子垃圾網頁的內容最大相似度值，生成相似度集合的步驟具體為：

采用TF-IDF詞頻從所有網頁中的關鍵詞特征、鏈接數量特征，可讀文本中提取出特征，然后利用向量空間模型將提取出的特征組成向量；

采用基于向量空間的余弦相似度計算所有網頁與種子垃圾網頁內容間的相似性，選取最大相似度值；

由最大相似度值組成相似度集合；

所述比較相似度值與相似度閾值，對網頁進行檢測，并將檢測出的垃圾網頁加入到垃圾網頁集合中的步驟具體為：

若某一網頁與種子垃圾網頁內容的相似度值大于相似度閾值，則認定網頁為垃圾網頁，并將網頁加入到垃圾網頁集合中；

挑選若干個垃圾網頁作為種子垃圾網頁；設置垃圾網頁集合的最大容量，重復進行查詢，直至達到最大容量，流程結束。

2.一種基于內容的垃圾網頁檢測裝置，其特征在于，所述垃圾網頁檢測裝置包括：

生成模塊，用于計算所有網頁與種子垃圾網頁的內容最大相似度值，生成相似度集合；

排序模塊，用于利用PageRank算法對所有網頁進行降序排序；

查詢模塊，用于基于排序結果，從相似度集合中查尋網頁與種子垃圾網頁間的內容相似度值；

檢測模塊，用于比較相似度值與相似度閾值，對網頁進行檢測，并將檢測出的垃圾網頁加入到垃圾網頁集合中；

所述生成模塊包括：

提取子模塊，用于采用統計的方法對所有網頁進行特征提取，然后利用向量空間模型將提取出的特征組成向量；

選取模塊，用于采用基于向量空間的余弦相似度方法計算所有網頁與種子垃圾網頁內容間的相似性，選取最大相似度值；

組成模塊，用于由最大相似度值組成相似度集合；

所述檢測模塊包括：檢測子模塊，用于若某一網頁與種子垃圾網頁內容的相似度值大于相似度閾值，則認定網頁為垃圾網頁，并將網頁加入到垃圾網頁集合中；

所述裝置還包括：挑選模塊，用于挑選若干個垃圾網頁作為種子垃圾網頁。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于天津大學，未經天津大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201510502698.1/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】