[發明專利]一種基于小樣本集的搜索引擎作弊檢測方法有效
| 申請號: | 200710119196.6 | 申請日: | 2007-07-18 |
| 公開(公告)號: | CN101350011A | 公開(公告)日: | 2009-01-21 |
| 發明(設計)人: | 耿光剛;王春恒;戴汝為;李秋丹;朱遠平 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 | 代理人: | 周國城 |
| 地址: | 100080北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 樣本 搜索引擎 作弊 檢測 方法 | ||
技術領域
本發明涉及信息檢索和搜索引擎技術領域,是一種小樣本下搜索引擎作弊檢測的方法。
背景技術
互聯網作為有史以來最大的信息庫,其內容仍在以指數級增長。互聯網搜索已經成為人們日常生活的一部分,CNNIC2006年7月發布的報告稱搜索引擎以66.3%的比例高居網民最常使用的網絡服務首位。
N.Eiron等學者使用著名的PageRank算法對1億網頁進行排序,結果發現排在最前面的20個網站中有11個是色情網站,這些網站通過篡改超鏈接以獲取靠前的排名。根據美國商業調查局的調查,2006年,美國的電子商務銷售額達到1141億美元,比2005年的930億美元增長了22.7%。而2007年,這一統計的第一個季度就達到了315億美元,比2006年同期增長了18.4%。Bernard?J.Jansen和Amanda?Spink的研究結果顯示,大約80%的用戶在使用搜索引擎時只會瀏覽前3頁的返回結果。
互聯網上巨大的利潤和搜索引擎的門戶作用,驅使很多網站管理者和網頁制作者想方設法使其站點和頁面變得有名,以期待用戶在進行相關內容查詢時,排在結果的前列。互聯網作弊(Web?Spam),又叫搜索引擎作弊,是指采用一些迷惑、欺騙搜索引擎的手段,使得Web頁面在檢索結果中的排名高于實際應得排名的行為,它導致搜索引擎檢索結果的質量嚴重下降。
互聯網作弊可以分為內容作弊、鏈接作弊和隱藏作弊三類。內容作弊指網站利用內容信息欺騙搜索引擎,提高某些頁面的重要性,包含關鍵詞作弊、針對標題作弊等。鏈接作弊指作弊網站針對PageRank算法構造出一些網絡鏈接結構,迷惑搜索引擎排序算法,從而提高某些頁面的重要性。隱藏作弊指作弊者利用各種隱蔽技術,使上述內容和鏈接作弊技術的使用不被用戶發現。
針對以上作弊形式,大量相關應對策略被提了出來。在基于內容分析的作弊網頁檢測方面,A.Ntoulas等人考察作弊網頁與一般網頁中平均字長、可顯示部分的比例、內容壓縮比例、錨文本的數量和流行詞匯在文本中的比例等,總結出一系列啟發式特征,把內容作弊網頁檢測作為二分類問題,訓練決策樹分類器,多數的內容欺詐網頁可以被檢測出來。在基于鏈接的作弊檢測方面,最早的有影響力的工作是Gyongyi等人提出的TrustRank算法,其出發點是“好的頁面很少指向作弊頁面”。通過手工挑選信譽好的種子集合,沿網絡圖中的超鏈接進行信任度傳播。從而獲得各個頁面的信任度,進而把所有頁面分為Spam和Normal兩種。B.Wu和Davison等人提出了一種對偽裝作弊進行檢測的方法,針對每一個URL,通過爬蟲先后抓取兩次,另外仿照瀏覽器模式抓取一次,然后計算它們之間在內容上的差異,以判定是否存在重定向作弊。這種方法的缺點是多次抓取增加了搜索引擎處理的負擔,同時也占用大量帶寬,更重要的是,這種方法需要搜索引擎的爬蟲產生常規的瀏覽請求,這違反了Robots?Exclusion?Standard協議。
基于機器學習的作弊檢測方法成為近期研究的熱點。搜索引擎和網絡作弊制造者之間的戰爭如同一場軍備競賽,每當搜索引擎發現了一個有效的方法并加以使用后,經過一段時間作弊者就找出應對方法,發明出新的作弊形式。基于機器學習的方法針對新的作弊形式,通過增加、刪除相應特征,保持系統對作弊檢測的有效性,而不必修改系統結構。然而基于機器學習的檢測方法面臨以下兩個難題:1、機器學習所需樣本的獲取需要耗費大量人力,成本高;2、互聯網數據中信譽好網站比作弊網站更容易獲得,作弊與非作弊網站的比例嚴重不均衡,傳統的學習算法很難在不均衡樣本學習中取得好的效果。
發明內容
為了解決現有機器學習方法所需樣本的獲取成本高,以及傳統的學習算法很難在不均衡樣本學習中取得好的效果的問題,本發明的目的是減少獲取所需樣本人力資源,降低成本;在不均衡樣本學習中取得好效果,為此本發明提供一種基于小樣本集的搜索引擎Web作弊檢測方法。
為了實現所述的目的,本發明基于小樣本集的搜索引擎Web作弊檢測方法的技術方案如下所述:
步驟S1:對所有網頁樣本進行預處理,將樣本集劃分為訓練集、測試集和無標號集;
步驟S2:使用劃分好的訓練集和無標號集進行基于分類器的自學習和基于互聯網拓撲結構的鏈接學習,以擴充訓練集;
步驟S3:針對擴展后的訓練集,采用集成的降采樣策略訓練分類器,利用訓練好的分類器對測試集中的樣本進行檢測;
步驟S4:檢測結果的后處理階段---基于預測作弊度的標號傳遞,完成搜索引作弊檢測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710119196.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:采用模塊化構架的整體傾斜往復爐排
- 下一篇:安全緩沖二用閥





