[發(fā)明專利]基于鏈接的垃圾檢測有效
| 申請?zhí)枺?/td> | 200580037229.1 | 申請日: | 2005-10-26 |
| 公開(公告)號: | CN101180624A | 公開(公告)日: | 2008-05-14 |
| 發(fā)明(設(shè)計)人: | 帕維爾·別爾欣;佐爾坦·I·真吉;簡·佩德森 | 申請(專利權(quán))人: | 雅虎公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 | 代理人: | 余剛;尚志峰 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 鏈接 垃圾 檢測 | ||
技術(shù)領(lǐng)域
本發(fā)明總體上涉及搜索系統(tǒng),更具體地,涉及對結(jié)果集中的搜索選中項(hit)進行分級的搜索系統(tǒng)。
背景技術(shù)
在整個語料庫(corpus)不能被吸收以及不存在或不可能存在指向期望的項目的精確指針的情況下,搜索是有用的。通常,搜索是指以下過程:設(shè)計(formulate,制定)或接受搜索查詢,從文檔的語料庫確定匹配的文檔集,并且返回該集合,或者如果該集合太大則返回該集合的某些子集。在具體的實例(本公開并不限于該實例)中,考慮搜索稱為“Web”的超鏈接文檔的集合。語料庫包含許多可搜索的項目,在此稱為頁面,或者更一般地,稱為文檔。搜索引擎通常使用在接收到搜索查詢之前所生成的索引從語料庫中識別與搜索查詢匹配的文檔。“匹配”可以意指許多情況,并且搜索查詢可以具有多種形式。通常,搜索查詢是包含一個或多個字或術(shù)語的字符串,并且當(dāng)文檔包含搜索查詢字符串中的一個或多個字或術(shù)語(或者所有的字或術(shù)語)時產(chǎn)生匹配。每個匹配文檔都被稱為一個選中項(hit),并且選中項的集合被稱為結(jié)果集或搜索結(jié)果。語料庫可以是數(shù)據(jù)庫或者其他數(shù)據(jù)結(jié)構(gòu)或者非結(jié)構(gòu)化數(shù)據(jù)。文檔通常是Web頁面。
典型的Web頁面索引包含數(shù)十億個條目,所以,一般的搜索可能具有包括數(shù)百萬個頁面的結(jié)果集。顯然,在這種情況下,搜索引擎可能需要進一步限制結(jié)果集,以使返回給查詢者(其一般為人計算機用戶,但不必然為這種情形)的結(jié)果集具有合理大小。限制該集合的一種方法是基于用戶將僅讀取或使用少數(shù)在有序的搜索結(jié)果中出現(xiàn)靠前的選中項的假設(shè),按順序顯示搜索結(jié)果。
由于這種假設(shè),許多Web頁面制作者期望他們的頁面在有序的搜索結(jié)果中靠前出現(xiàn)。搜索引擎根據(jù)相關(guān)頁面的各種特征來只選擇和返回最高質(zhì)量的頁面。由于在查詢結(jié)果列表中的頂部位置(高級別)可能帶來商業(yè)利益,因此某些Web頁面的制作者企圖惡意地提高他們頁面的級別。這種具有人為地提高的級別的頁面被稱為“網(wǎng)絡(luò)垃圾”頁面,并且通稱為“網(wǎng)絡(luò)垃圾”。
存在許多與網(wǎng)絡(luò)垃圾相關(guān)的技術(shù)。一種是人為地使Web頁面適于被多種查詢所選擇。這可以通過增加具有大量與實質(zhì)內(nèi)容無關(guān)的以及用小的或不可見的字體表示的術(shù)語的頁面來實現(xiàn)。這種增加使得頁面更加暴露(即,可能與更多查詢相關(guān)),但是不能真正地提高其對于任何特殊查詢的相關(guān)度(relevance)。在這一點上,垃圾的制作者使用了另一種技術(shù):基于更頻繁地被其他頁面引用的頁面通常被搜索引擎認(rèn)為是更好的(具有更高的相關(guān)度)的觀察結(jié)果,他們向頁面加入了許多引入(超)鏈接,也稱為內(nèi)部鏈接(inlink)。難以區(qū)分由于其較高價值而被許多其他頁面引用的真正高質(zhì)量頁面和具有許多內(nèi)部鏈接的網(wǎng)絡(luò)垃圾。
網(wǎng)絡(luò)垃圾頁面的識別以及其在搜索結(jié)果列表中的后續(xù)降級對于維持或提高由搜索引擎生成的答復(fù)的質(zhì)量是重要的。因而,網(wǎng)絡(luò)垃圾檢測對于搜索引擎而言是有用的工作。經(jīng)常采用人工編輯以通過校驗存在于搜索引擎索引中的大量頁面來識別網(wǎng)絡(luò)垃圾,但這通常是不切實際的。
因此,需要一種改進的搜索處理,其能夠克服網(wǎng)絡(luò)垃圾并能提供更符合用戶需要而不是符合文檔制作者的操縱的搜索結(jié)果。
發(fā)明內(nèi)容
本發(fā)明的實施例提供了一種用于處理搜索請求的系統(tǒng)和方法,包括對構(gòu)成搜索結(jié)果集的選中項進行分級。可以利用選中項的有效質(zhì)量(其是指向特定頁面的垃圾場(spam?farm)的大小的測度(measure))以及其他參數(shù)來對選中項進行分級。
在一個實施例中,本發(fā)明提供了一種對搜索結(jié)果集中的搜索選中項分級的計算機執(zhí)行的方法。該計算機執(zhí)行的方法包括接收來自用戶的查詢并生成與查詢相關(guān)的選中項的列表,其中,每個選中項對于查詢都具有相關(guān)度,其中,選中項具有指向該選中項的一個或多個提升鏈接文檔(boosting?linked?document),并且其中,提升鏈接文檔影響選中項對于查詢的相關(guān)度。然后,該方法將度量(metric)與選中項的至少一個子集中的每個相結(jié)合,該度量代表指向該選中項的至少一個子集中的每個并且人為地夸大了選中項的相關(guān)度的提升鏈接文檔的數(shù)目。接著,該方法將表示指向該選中項的垃圾場的大小的度量與閾值進行比較,部分地基于該比較來處理選中項的列表以形成修正列表,并且向用戶傳送修正列表。
一方面,度量是第一測度和第二測度的組合。選中項的第一測度代表選中項的鏈接流行度(link?popularity),第二測度是選中項為有信譽文檔(reputable?document)的可能性的測度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于雅虎公司,未經(jīng)雅虎公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200580037229.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





