[發明專利]基于內容特征信息對鏈接進行去重處理的方法與設備有效
| 申請號: | 201010624368.7 | 申請日: | 2010-12-31 |
| 公開(公告)號: | CN102063498A | 公開(公告)日: | 2011-05-18 |
| 發明(設計)人: | 姚遠 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京漢昊知識產權代理事務所(普通合伙) 11370 | 代理人: | 羅朋 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 內容 特征 信息 鏈接 進行 處理 方法 設備 | ||
技術領域
本發明涉及網絡搜索技術領域,尤其涉及一種用于基于內容特征信息對指向相同資源文件的多個鏈接進行去重處理的技術。
背景技術
隨著互聯網的飛速發展,網絡中存在大量重復的資源文件。例如,大多數用戶會將其希望分享的資源文件上傳至網絡,對于熱門的、或者受歡迎度較高的資源文件,會被許多用戶上傳至網絡,這必然造成相同的資源文件被重復上傳。同時,不同的網站也會轉載、引用以及提供下載相同的資源文件,這進一步擴大了網絡中重復資源文件的數量。
然后,搜索引擎通過“網絡蜘蛛(spider)”、“網絡爬蟲(crawler)”或者“機器人(robot)”等網頁抓取工具從網絡中抓取網頁時,對抓取到的網頁不做區分,這些網頁中可能包括指向相同的資源文件的網頁。如果不對這些指向相同的資源文件的網頁去重,搜索引擎在抓取這些網頁后,需要大量的存儲空間來存儲這些網頁,并且還需要分配更多的檢測設備對存儲的網頁進行后期檢測。
因此,如何提供一種基于內容特征信息對指向相同資源文件的多個鏈接進行去重處理的方法,成為目前急需解決的問題之一。
發明內容
本發明的目的是提供一種用于基于內容特征信息對指向相同資源文件的多個鏈接進行去重處理的方法與設備。
根據本發明的一個方面,提供了一種用于基于內容特征信息對指向相同資源文件的多個鏈接進行去重處理的方法,其中,該方法包括以下步驟:
a獲取多個第一鏈接,其中,所述第一鏈接指向資源文件;
b對所述第一鏈接所指向的資源文件執行基于摘要算法的處理操作,以獲取與所述第一鏈接相對應的內容特征信息;
c根據所述內容特征信息,并結合所述第一鏈接所屬的站點,對所述多個第一鏈接進行分組,以獲取一個或多個第一鏈接集,其中,所述第一鏈接集包括多個從屬于同一站點且具有相同內容特征信息的第一鏈接;
d對所述第一鏈接集進行去重處理。
根據本發明的另一個方面,還提供了一種用于基于內容特征信息對指向相同資源文件的多個鏈接進行去重處理的設備,其中,該設備包括:
獲取裝置,用于獲取多個第一鏈接,其中,所述第一鏈接指向資源文件;
處理裝置,用于對所述第一鏈接所指向的資源文件執行基于摘要算法的處理操作,以獲取與所述第一鏈接相對應的內容特征信息;
分組裝置,用于根據所述內容特征信息,并結合所述第一鏈接所屬的站點,對所述多個第一鏈接進行分組,以獲取一個或多個第一鏈接集,其中,所述第一鏈接集包括多個從屬于同一站點且具有相同內容特征信息的第一鏈接;
去重裝置,用于對所述第一鏈接集進行去重處理。
與現有技術相比,本發明基于內容特征信息對指向相同資源文件的多個鏈接進行去重處理,使得存儲這些鏈接的設備,如搜索引擎服務器減少相應的存儲空間,并降低了對這些鏈接進行后期檢測的成本,同時在將去重后的鏈接作為搜索結果提供給用戶時,使得用戶獲得更好的搜索體驗。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
圖1示出根據本發明一個方面的用于基于內容特征信息對指向相同資源文件的多個鏈接進行去重處理的去重設備的示意圖;
圖2示出根據本發明另一個方面的用于基于內容特征信息對指向相同資源文件的多個鏈接進行去重處理的方法流程圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
下面結合附圖對本發明作進一步詳細描述。
圖1為根據本發明一個方面的設備示意圖,示出用于基于內容特征信息對指向相同資源文件的多個鏈接進行去重處理的去重設備。其中,去重設備1包括獲取裝置11、處理裝置12、分組裝置13和去重裝置14。具體地,獲取裝置11獲取多個第一鏈接,其中,所述第一鏈接指向資源文件;隨后,處理裝置12對所述第一鏈接所指向的資源文件執行基于摘要算法的處理操作,以獲取與所述第一鏈接相對應的內容特征信息;接著,分組裝置13根據所述內容特征信息,并結合所述第一鏈接所屬的站點,對所述多個第一鏈接進行分組,以獲取一個或多個第一鏈接集,其中,所述第一鏈接集包括多個從屬于同一站點且內容特征信息相同的第一鏈接;隨后,去重裝置14對所述第一鏈接集進行去重處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010624368.7/2.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





