[發明專利]一種主題網絡爬蟲系統的設計方法無效
| 申請號: | 200910094834.2 | 申請日: | 2009-08-14 |
| 公開(公告)號: | CN101630327A | 公開(公告)日: | 2010-01-20 |
| 發明(設計)人: | 張云偉;汪斌;何慶華 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 昆明今威專利代理有限公司 | 代理人: | 何積國 |
| 地址: | 650093云南省昆明市*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主題 網絡 爬蟲 系統 設計 方法 | ||
1、一種主題網絡爬蟲系統的設計方法,其特征在于:本設計方法包括以下步驟:
(1)、建立主題詞庫,確立搜索主題,為每個主題確立不同權值;
(2)、設定閾值,對爬取網頁進行過濾,剔除主題相關度低于設定閾值的網頁;
(3)、計算網頁重要程度,確定網頁的訪問順序;
(4)、為方便主題爬蟲處理鏈接和計算主題相關度,建立4個URL隊列:待分析的URL隊列Waiting?queue、正在分析的URL隊列Running?queue、分析完成的URL隊列Completedqueue、錯誤或拋棄的URL隊列Exceptions?queue。
2、根據權利要求1所述的一種主題網絡爬蟲系統的設計方法,其特征在于:步驟(1)建立主題詞庫,確立搜索主題,為每個主題確立不同權值,得到本方法的主題詞庫,其步驟包括:
1)、給定一個跟主題信息主題有關的網頁集合,該網頁集合來自建立的專業網站數據庫,具有有代表性和全面概括性,由程序自動將這些網頁里面共同的特征進行提取,并根據頻率確定權值;
2)、手工設置一組關于主題信息的關鍵詞并分配權值。
3、根據權利要求1所述的一種主題網絡爬蟲系統的設計方法,其特征在于:步驟2對爬取網頁進行過濾,剔除主題相關度低于設定閾值的網頁,其實現方法:采用向量空間模型算法(Vector?Space?Model,VSM)計算網頁主題相關度,實現網頁過濾。
4、根據權利要求1所述的一種主題網絡爬蟲系統的設計方法,其特征在于:步驟3計算網頁重要程度,確定網頁的訪問順序,其實現方法:應用超鏈接分析算法來判斷URL的重要性,從而得到網頁的重要程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910094834.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于射頻識別系統的天線部署方法及裝置
- 下一篇:確定自動機的空間壓縮方法





