[發明專利]通過網頁多視圖數據關聯組合識別垃圾網頁的方法有效
| 申請號: | 201210187098.7 | 申請日: | 2012-06-07 |
| 公開(公告)號: | CN102750345A | 公開(公告)日: | 2012-10-24 |
| 發明(設計)人: | 張化祥;高爽 | 申請(專利權)人: | 山東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 張勇 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 網頁 視圖 數據 關聯 組合 識別 垃圾 方法 | ||
技術領域
本發明涉及一種通過網頁多視圖數據關聯組合識別垃圾網頁的方法,屬于internet信息檢索領域。
背景技術
網絡已經成為最主要的信息來源,人們通過信息檢索(IR)查找相關信息。用戶在使用搜索引擎檢索信息時,往往只選取排名靠前的幾條結果,某些網站為了達到商業目的利用一些專門為其他網站提供提高排名服務的盈利組織(如SEO)[Luca?Becchetti,Carlos?Castillo,Debora?Donato,et?al.Web?spam?detection:link-based?and?content-based?techniques[R].Yahoo!Research?Barcelona,2008.]誤導和欺騙用戶,嚴重影響了用戶獲取有用信息。由此可見,對垃圾網頁進行有效檢測是一個亟待解決的問題。
目前垃圾網頁主要分為三種類型:基于內容的垃圾網頁,基于鏈接的垃圾網頁和網頁隱藏[Carlos?Castillo,Debora?Donato,AristidesGionis,et?al.Know?your?neighbors:web?spam?detection?using?the?web?topology?[C]//Proceedings?of?the?30th?Annual?International?ACM?SIGIR?Conference?on?Research?and?Development?in?Information?Retrieval.New?York,USA:ACM,2007:423-430]。基于內容的垃圾網頁通過惡意制作網頁內容(如插入與流行的查詢條件相關的關鍵字)提高搜索排名,通常使用基于語言模型[István?Bíró,Dávid?Siklósi,Jácint?Szabó,András?A.Benczúr.Linked?latent?dirichlet?allocation?in?web?spam?filtering[C]//Proceedings?of?the?5th?International?Workshop?on?Adversarial?Information?Retrieval?on?the?Web.New?York,USA:ACM,2009:37-40,Lourdes?Araujo,Juan?Martinez-romo.Web?spam?detection:new?classification?features?based?on?qualified?link?analysis?and?language?models[J].IEEE?Transactions?on?Information?Forensics?and?Security,2010,5(3):581-590]的方法檢測該類垃圾網頁。基于鏈接的垃圾網頁通過創建一個聯系緊密的鏈接結構影響排名算法,常用基于信任傳播的方法進行檢測[Jacob?Abernethy,Olivier?Chapelle,Carlos?Castillo.Graph?regularization?methods?for?web?spam?detection[J].Machine?Learning,2010,81(2):207-225]。網頁隱藏通過向搜索引擎和用戶發送內容不同的網頁來實現,可以利用比較索引版本和用戶實際看到的網頁的方法進行檢測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東師范大學,未經山東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210187098.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





