[發明專利]一種垃圾網頁檢測方法有效

申請號：	201710198162.4	申請日：	2017-03-29
公開（公告）號：	CN107423319B	公開（公告）日：	2020-07-03
發明（設計）人：	張亞平;馬舒婕;于瑞國;喻梅;王建榮;孟瑩	申請（專利權）人：	天津大學
主分類號：	G06F16/9535	分類號：	G06F16/9535;G06F16/35
代理公司：	天津市北洋有限責任專利代理事務所 12201	代理人：	劉子文
地址：	300072***	國省代碼：	天津;12
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種垃圾網頁檢測方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種垃圾網頁檢測方法，包括以下步驟：一：對數據集進行K?Means算法，將全部對象n用數據集D存儲；二：對數據集D進行IPR計算，并將IPR值按照從高到低順序進行排序；三：在數據集中選取IPR值最大和最小的網頁作為初始的聚類中心C；四：計算數據集D中的x_i與c_j間的距離dist(x_i,c_j)，并將dist(x_i,c_j)劃分到與之相距最小的中心所處的簇中；五：查看聚集結束時的聚類中心，得到新的c_j表達式；六：重復步驟四至步驟六，將目標函數用SSE表示，直到SSE取最小值時算法終止；得到最終聚類結果，以此識別垃圾網頁。該方法能夠克服傳統推薦技術在分配鏈接權重時忽略網頁重要性的缺點，結合個性化網頁排序，達到將網頁以聚集的形式來檢測垃圾網頁的目的。

技術領域

本發明涉及數據挖掘、自然語言處理和信息檢索領域，涉及垃圾網頁檢測技術和對網頁進行聚類技術，尤其是一種基于網頁權威性的垃圾網頁檢測方法。

背景技術

目前在相關技術中，推薦技術主要分為兩類：第一類推薦技術是基于鏈接的推薦，如PageRank算法。它的優點在于將權威性通過數值形式表達出來，再對其按照從高到低的順序排列。正是由于網頁質量數值化，所以被廣泛應用于發現垃圾網頁，形成了很好的網頁權威性評判標準。

PageRank算法的缺陷主要表現為兩個方面，一方面是其忽視網頁內容的相關性。例如：垃圾網頁如果采取堆砌關鍵字等內容作弊的手段來欺騙搜索引擎，此時算法就無法檢測到內容作弊的垃圾網頁。另一方面是平均分配鏈接權重，使用這樣的分配方式使得網頁結果不具有可靠性，并且有失分配公平。

另一類是基于K-Means算法的垃圾網頁檢測技術。算法的主要思想是選取劃分聚集k，并以數據對象與k個中心的距離為評判標準，經過多次聚集將數據對象劃分到合適的聚類中。隨著數據挖掘的快速發展，此算法可以更好地為管理人員提供決策。

但是基于K-Means算法的垃圾網頁檢測推薦也有其缺點。其一，初始聚類時k需要提前設定。而往往我們并不能夠提前確定需要聚類的數目。其二，初始聚類時中心選取的隨機性，可能導致兩極分化的聚集效果。其三，噪聲點對聚類影響較為嚴重。其四，反復計算使得方法有較高的時間復雜度。

發明內容

本發明的目的是為了克服現有技術中的不足，提供一種基于個性化網頁排序(Individuation Page Ranking,IPR)算法和K-Means算法相結合形成基于個性化網頁的K-Means聚類(Individuation Page-based K-Means,IPK-Means)的垃圾網頁檢測方法。該檢測方法能夠有效克服傳統推薦技術在分配鏈接權重時忽略網頁重要性的缺點，結合個性化網頁排序，達到將網頁以聚集的形式來檢測垃圾網頁的目的。

其中，IPR算法是針對PageRank算法的缺點提出的一種改進算法。它考慮到個性化網頁的特點，將網頁依據權威性的差別傳遞相應的值。擁有較高IPR值的網頁，表明其具有較高的權威程度。

本發明的目的是通過以下技術方案實現的：

一種垃圾網頁檢測方法，基于IPR算法和K-Means算法相結合形成有IPK-Means算法，包括以下步驟：

步驟一：對數據集進行K-Means算法，將全部對象n用數據集D存儲；k值起始值為2，分別代表垃圾網頁和非垃圾網頁；

步驟二：對數據集D進行IPR計算，并將IPR值按照從高到低順序進行排序；

步驟三：在數據集中選取IPR值最大和最小的網頁作為初始的聚類中心C；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于天津大學，未經天津大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710198162.4/2.html，轉載請聲明來源鉆瓜專利網。