[發明專利]一種主題網絡爬蟲系統的設計方法無效

申請號：	200910094834.2	申請日：	2009-08-14
公開（公告）號：	CN101630327A	公開（公告）日：	2010-01-20
發明（設計）人：	張云偉;汪斌;何慶華	申請（專利權）人：	昆明理工大學
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	昆明今威專利代理有限公司	代理人：	何積國
地址：	650093云南省昆明市***	國省代碼：	云南;53
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種主題網絡爬蟲系統設計方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明專利涉及網絡數據采集系統設計方法，尤其涉及一種主題網絡爬蟲系統的設計方法。

背景技術

當今的世界是信息的世界，但隨著網絡的迅猛發展，網絡信息呈幾何級數增長。因此如何在浩瀚如海的信息空間里快速查找并獲取自己需要或感興趣的信息已成為信息時代最根本的問題之一。目前的搜索引擎大多數是面向全部信息的，可以稱之為綜合性搜索引擎，但隨著信息多元化的發展，這種適用于所有用戶的綜合性搜索引擎顯然已經不能滿足特定用戶更加深入的查詢要求，他們對信息的需求往往是針對某些受限領域和面向特定主題的，同時綜合性搜索引擎的信息召回率和精確率都是比較低的。針對這種情況，我們需要一個分類精確、數據全面、更新及時的面向主題的搜索引擎，而網絡爬蟲作為搜索引擎的核心部分，其搜索策略很大程度地影響了搜索引擎的性能。普通爬蟲是按照IP地址搜索策略或預先設定的廣度優先策略、深度優先策略或這兩種策略相結合的方式爬行網頁。通常這幾種爬行方式的特點是爬蟲只按深度爬行網頁，一般很少關注網頁的內容，當爬行到給定的深度時便停止工作。所以它從網絡上搜集到的信息比較全面，正是因為如此其爬行速度較慢，而且搜索結果冗余信息過多、搜索結果雜亂無章，相當一部分內容與檢索人需要的信息的相關度差距較大。為進一步提高搜索結果的內容相關度，從而增加搜索結果的準確性，提出了“最佳優先搜索”的策略。

發明內容

發明目的：本發明的目的是針對現有爬蟲搜索技術的搜索結果相關度差距較大，爬行速度較慢的不足，提出一種基于最佳優先搜索策略的主題網絡爬蟲系統的設計方法。最佳優先搜索策略是根據搜索關鍵詞及其它相關信息，推測用戶搜索時的隱含條件，預測候選URL與目標網頁的相似度，或與主題的相關性，并選取評價最好的一個或幾個URL進行抓取，進一步限制搜索結果的范圍。

為實現本發明的目的所采用的技術方案，本設計方法包括以下步驟：

1、建立主題詞庫，確立搜索主題，為每個主題確立不同權值；

2、設定閾值，對爬取網頁進行過濾，剔除主題相關度低于設定閾值的網頁；

3、計算網頁重要程度，確定網頁的訪問順序；

4、為方便主題爬蟲處理鏈接和計算主題相關度，建立4個URL隊列：待分析的URL隊列Waiting?queue、正在分析的URL隊列Running?queue、分析完成的URL隊列Completedqueue、錯誤或拋棄的URL隊列Exceptions?queue。

其中上述步驟1建立主題詞庫，確立搜索主題，為每個主題確立不同權值，得到本方法的主題詞庫，其步驟包括：

(1)、給定一個跟主題信息主題有關的網頁集合，該網頁集合來自建立的專業網站數據庫，具有有代表性和全面概括性，由程序自動將這些網頁里面共同的特征進行提取，并根據頻率確定權值；

(2)、采用手工的方法(主要是通過咨詢相關領域專家獲取)設置一組關于主題信息的關鍵詞并分配權值。

其中上述步驟2對爬取網頁進行過濾，剔除主題相關度低于設定閾值的網頁，其實現方法：采用向量空間模型算法(Vector?Space?Model，VSM)計算網頁主題相關度，實現網頁過濾。

其中上述步驟3計算網頁重要程度，確定網頁的訪問順序，其實現方法：應用超鏈接分析算法來判斷URL的重要性，從而得到網頁的重要程度。

本發明的有益效果是：由于本設計方法的主題爬蟲是按照最佳優先的爬行策略爬行網頁。主題爬蟲有一個網頁分類器，當爬蟲從網絡上抓取到新網頁時，在爬行之前都要進行主題相關度分析，通過分析將優先爬行與初始種子網頁相關度最高的網頁，而與初始種子網頁不相關或著相關度不大的網頁則被拋棄。按照本發明方法構建的主題網絡爬蟲系統與普通網絡爬蟲系統相比，其顯著優點是：爬蟲的工作量大大減少、爬行的速度大大加快，爬行的準確率和全面率大大提高，從而其搜索結果更加令用戶滿意。研究表明，這樣的調整可以將無關網頁數量降低30％～90％。

附圖說明

圖1是本發明系統結構圖；

圖2是URL狀態流程圖。

具體實施方式

如圖1所示，本發明方法所構建的網絡爬蟲系統主要包含：管理界面1、爬行數據庫2、主題詞庫3、主題確定器4、網頁分類器5、網頁選擇器6及Web?Crawler主程序7。主題確定器4是主題爬蟲工作的基礎，網頁分類器5負責學習抓取目標的特點，計算網頁的關聯度，并過濾網頁。網頁選擇器6負責計算網頁的重要程度，并由此動態決定網頁的訪問順序。

下面對本設計方法作詳細說明：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學，未經昆明理工大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200910094834.2/2.html，轉載請聲明來源鉆瓜專利網。