[發明專利]一種基于內容的垃圾網頁檢測方法及其檢測裝置有效
| 申請號: | 201510502698.1 | 申請日: | 2015-08-14 |
| 公開(公告)號: | CN105183784B | 公開(公告)日: | 2020-04-28 |
| 發明(設計)人: | 喻梅;孟瑩;于瑞國;周靜;雷霆;田逸塵 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/957;G06F16/958 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 李林娟 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 內容 垃圾 網頁 檢測 方法 及其 裝置 | ||
本發明公開了一種基于內容的垃圾網頁檢測方法及其檢測裝置,方法包括:計算所有網頁與種子垃圾網頁的內容最大相似度值,生成相似度集合;利用PageRank算法對所有網頁進行降序排序;基于排序結果,從相似度集合中查尋網頁與種子垃圾網頁間的內容相似度值;比較相似度值與相似度閾值,對網頁進行檢測,并將檢測出的垃圾網頁加入到垃圾網頁集合中。裝置包括:生成模塊、排序模塊、查詢模塊和檢測模塊,通過這些模塊,本發明在傳統的PageRank算法基礎上加入對網頁內容相似度的判定,把網頁的鏈接與內容結合起來,對垃圾網頁進行檢測,以此提高了垃圾網頁檢測的準確度和效率。
技術領域
本發明涉及數據挖掘、文本挖掘和搜索引擎領域,尤其涉及一種基于內容的垃圾網頁檢測方法及其檢測裝置。
背景技術
頁面排序算法可用于對垃圾網頁的檢測。其中的網頁等級(PageRank)是Google用于標識網頁的等級/重要性的一種方法,是Google用來衡量一個網站好壞的唯一標準。
PageRank的計算基于以下兩個基本假設:
數量假設:在網絡圖模型中,如果一個頁面節點接收到的其他網頁指向的入鏈數量越多,那么這個頁面越重要。
質量假設:指向頁面A的入鏈質量不同,質量高的頁面會通過鏈接向其他頁面傳遞更多的權重。所以越是質量高的頁面指向頁面A,則頁面A越重要。
所以PageRank實現了將鏈接價值概念作為網頁排名的因素。
PageRank的計算步驟可分為如下兩個:
在初始階段:網頁通過鏈接關系構建起網絡圖,每個頁面設置相同的PageRank值,通過若干輪的計算,會得到每個頁面所獲得的最終PageRank值。隨著每一輪的計算進行,網頁當前的PageRank值會不斷得到更新。
在一輪中更新頁面PageRank得分的計算方法:在一輪更新頁面PageRank得分的計算中,每個頁面將其當前的PageRank值平均分配到本頁面包含的出鏈上,這樣每個鏈接即獲得了相應的權值。而每個頁面將所有指向本頁面的入鏈所傳入的權值求和,即可得到新的PageRank得分。當每個頁面都獲得了更新后的PageRank值,就完成了一輪PageRank計算。
PageRank的缺陷在于它單純地根據一個網頁上被鏈接的站點數量和質量來給該網頁分配一個絕對的“重要性”值。即若一個網頁的鏈入網頁數越多且其等級越高,則傳遞給此網頁的頁面等級值也將會越高。由此可以看出,PageRank算法只考慮了網頁之間的鏈接而忽略了網頁的內容與主題間的相關性,所以即使一個網頁的內容與主題的相關性較低,也會因為此網頁的PageRank值較大而獲得較高的排名,從而影響了搜索結果的相關性與準確性。
發明內容
本發明提供了一種基于內容的垃圾網頁檢測方法及其檢測裝置,本發明能夠有效克服PageRank算法在檢測垃圾網頁時只考慮研究垃圾網頁之間鏈接的關系,忽略了網頁內容關系的問題,詳見下文描述:
一種基于內容的垃圾網頁檢測方法,所述垃圾網頁檢測方法包括以下步驟:
計算所有網頁與種子垃圾網頁的內容最大相似度值,生成相似度集合;
利用PageRank算法對所有網頁進行降序排序;
基于排序結果,從相似度集合中查尋網頁與種子垃圾網頁間的內容相似度值;
比較相似度值與相似度閾值,對網頁進行檢測,并將檢測出的垃圾網頁加入到垃圾網頁集合中。
其中,所述計算所有網頁與種子垃圾網頁的內容最大相似度值,生成相似度集合的步驟具體為:
采用統計的方法對所有網頁進行特征提取,然后利用向量空間模型將提取出的特征組成向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510502698.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息輸入方法和裝置
- 下一篇:一種基于對象模型的審計系統
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





