[發明專利]基于鏈接的垃圾檢測有效
| 申請號: | 200580037229.1 | 申請日: | 2005-10-26 |
| 公開(公告)號: | CN101180624A | 公開(公告)日: | 2008-05-14 |
| 發明(設計)人: | 帕維爾·別爾欣;佐爾坦·I·真吉;簡·佩德森 | 申請(專利權)人: | 雅虎公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司 | 代理人: | 余剛;尚志峰 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 鏈接 垃圾 檢測 | ||
1.一種對搜索結果集中的搜索選中項進行分級的計算機執行的方法,所述方法包括:
接收來自用戶的查詢;
生成與所述查詢相關的選中項的列表,其中,所述選中項中的每一個都具有對于所述查詢的相關度,其中,所述選中項具有一個或多個指向所述選中項的提升鏈接文檔,并且,其中,所述提升鏈接文檔影響所述選中項對于所述查詢的相關度;
將度量與所述選中項的至少一個子集中的每一個相結合,所述度量代表指向所述選中項的至少一個子集中的每一個并且人為地夸大了所述選中項的所述相關度的提升鏈接文檔的數量;
將所述度量與閾值進行比較;
部分地基于所述比較來處理所述選中項的列表,以形成修正列表;以及
將所述修正列表傳送給所述用戶。
2.根據權利要求1所述的方法,其中,所述結合包括形成所述度量,包括:
形成所述選中項的至少一個子集的每一個的第一測度,所述第一測度代表所述選中項的所述子集的鏈接流行度;
形成所述選中項的至少一個子集的每一個的第二測度,所述第二測度表示選中項為有信譽文檔的可能性;以及
形成包括所述第一測度和所述第二測度的組合,所述組合代表所述第一測度和所述第二測度之間的差別。
3.根據權利要求2所述的方法,其中,在所述接收查詢之前執行所述形成所述度量。
4.根據權利要求2所述的方法,其中,所述形成第二測度包括:
形成有信譽文檔的種子集,所述有信譽文檔的種子集是鏈接文檔;
將信任值賦予所述種子集中的所述文檔中的每一個;
將所述信任值傳播給所述鏈接文檔指向的被鏈接文檔中的每一個;以及
將按比例分配的信任值賦予所述被鏈接文檔中的每一個。
5.根據權利要求4所述的方法,其中,所述形成所述種子集包括:
為多個文檔中的每一個確定代表所述文檔中的每一個的外部鏈接的數量的外部鏈接度量;
使用所述外部鏈接度量來分級所述多個文檔;
識別一組最高級別的文檔;
估計所述最高級別文檔的質量;
通過從所述最高級別文檔中去除被認為不適合的那些文檔來形成修正的文檔集合;以及
使用所述修正的保留集來形成種子集。
6.一種攜帶有指令的計算機可讀介質,當所述指令由一個或多個處理器執行時,使所述一個或多處理器執行權利要求1至5中任一項所述的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于雅虎公司,未經雅虎公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200580037229.1/1.html,轉載請聲明來源鉆瓜專利網。





