[發明專利]遞進式網頁庫去重系統及其實現方法有效
| 申請號: | 201010576731.2 | 申請日: | 2010-12-07 |
| 公開(公告)號: | CN102567313A | 公開(公告)日: | 2012-07-11 |
| 發明(設計)人: | 陳運文 | 申請(專利權)人: | 盛樂信息技術(上海)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海浦一知識產權代理有限公司 31211 | 代理人: | 丁紀鐵 |
| 地址: | 201203 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 遞進 網頁 庫去重 系統 及其 實現 方法 | ||
技術領域
本發明涉及一種互聯網搜索引擎的優化方法。
背景技術
互聯網搜索引擎都有網頁抓取程序,這些網頁抓取程序一般稱為網絡爬蟲(Crawler)或網絡蜘蛛(Spider)。這些網頁抓取程序日以繼夜地從互聯網上抓取各種網頁,為各自搜索引擎形成一個逐步膨脹的網頁庫。可是,一方面網頁庫的容量存在上限,無法承受無限制的內容增加;另一方面互聯網上有大量重復網頁,這些內容重復的網頁不僅占用了搜索引擎存儲網頁庫的空間,也會導致網頁庫的查詢性能下降。如何在網頁庫中尋找出、并去除掉內容重復的網頁,就成為一個值得研究的問題。
傳統搜索引擎的網頁庫去重工作,是將網頁庫中全部數據依次取出,與新抓取網頁進行遍歷對比,并去除重復數據,這種方法運算量大,并且去重的實時性差(先出現重復,再進行去重)。
發明內容
本發明所要解決的技術問題是提供一種互聯網搜索引擎的網頁庫去重系統。為此,本發明還提供所述網頁庫去重系統的實現方法,所謂去重就是當具有多個重復的網頁時僅保留其中之一而去除其他。
為解決上述技術問題,本發明提供了互聯網搜索引擎的遞進式網頁庫去重系統,包括:
網頁抓取模塊,該模塊將互聯網上的網頁抓取并下載;
結構化特征提取模塊,該模塊對網頁抓取模塊所抓取的每個網頁進行解析,提取出多個特征字段;
所述遞進式網頁庫包括內部網頁庫和外部網頁庫;所述內部網頁庫為本網站內部網頁所形成的網頁庫;所述外部網頁庫為網頁抓取模塊從除本網站以外的互聯網抓取的網頁所形成的網頁庫。
上述遞進式網頁庫去重系統的實現方法,所述遞進式網頁庫包括內部網頁庫和外部網頁庫,內部網頁庫為本網站內部網頁所形成的網頁庫,外部網頁庫為網頁抓取程序從除本網站以外的互聯網抓取的網頁所形成的網頁庫;所述遞進式網頁庫去重方法包括如下步驟:
第1步,網頁抓取模塊定期將新抓取網頁傳輸給結構化特征提取模塊;
第2步,結構化特征提取模塊從每個新抓取網頁中提取多個特征字段;
第3步,將每個新抓取網頁與內部網頁庫中的所有網頁進行比較,當新抓取網頁的每個特征字段都與內部網頁庫中的一個網頁的一個特征字段相同時,判斷該新抓取網頁與內部網頁庫中的該網頁重復,刪除該新抓取網頁;
當該新抓取網頁與內部網頁庫中的所有網頁都不重復,進入第4步;
第4步,將每個新抓取網頁的網址與外部網頁庫中的所有網頁的網址進行比較,如果有相同現象,則以該新抓取網頁替代外部網頁庫中的相同網址的網頁;否則進入第5步;
第5步,將每個新抓取網頁與外部網頁庫中的所有網頁進行比較,當新抓取網頁的每個特征字段都與外部網頁庫中的一個網頁的一個特征字段相同時,判斷該新抓取網頁與外部網頁庫中的該網頁重復,進入第6步;
當該新抓取網頁與外部網頁庫中的所有網頁都不重復,將該新抓取網頁存儲至外部網頁庫中;
第6步,將該新抓取網頁的特征字段數量設為a,將外部網頁庫中與之重復的網頁的特征字段數量設為b;當a<b,則刪除該新抓取網頁;當a≥b,則以該新抓取網頁替代外部網頁庫中與之重復的網頁。
本發明遞進式網頁庫去重系統及其實現方法,在去重時并不對網頁庫的所有網頁數據進行比較,這樣對性能的消耗過大。而是采用遞進式方法,該方法將已有網頁庫分為內部資料庫、外部資料庫兩種,每次只需要考察給定周期內新抓取的網頁,將這些網頁進行特征提取,并分別進行比對。對存在重復的網頁,根據重復的類型進行不同操作,從而大大節省了系統資源。
附圖說明
圖1是本發明所述遞進式網頁庫去重系統的示意圖;
圖2是本發明所述遞進式網頁庫去重方法的流程圖。
具體實施方式
請參閱圖1,本發明提供了互聯網搜索引擎的遞進式網頁庫去重系統。搜索引擎都具有網頁抓取模塊,該模塊將互聯網上的網頁抓取并下載。搜索引擎還具有結構化特征提取模塊,該模塊對網頁抓取模塊所抓取的每個網頁進行解析,提取出多個特征字段。特征字段和搜索引擎對應的應用緊密相關。例如搜索引擎應用于網絡書目信息的抓取應用,網頁抓取模塊從當當網等網絡售書站點進行網頁抓取后,結構化特征提取模塊從網頁中提取書名、作者、ISBN、價格、出版社、書籍簡介等信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于盛樂信息技術(上海)有限公司,未經盛樂信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010576731.2/2.html,轉載請聲明來源鉆瓜專利網。





