[發(fā)明專利]一種網(wǎng)絡(luò)爬蟲下載解析方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201310471411.4 | 申請(qǐng)日: | 2013-10-10 |
| 公開(公告)號(hào): | CN103533097A | 公開(公告)日: | 2014-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 周東 | 申請(qǐng)(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號(hào): | H04L29/12 | 分類號(hào): | H04L29/12;G06F17/30 |
| 代理公司: | 北京邦信陽專利商標(biāo)代理有限公司 11012 | 代理人: | 王昭林;金璽 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 爬蟲 下載 解析 方法 裝置 | ||
1.一種網(wǎng)絡(luò)爬蟲下載解析方法,其特征在于,包括:
將多個(gè)待下載網(wǎng)絡(luò)地址劃分為多個(gè)下載任務(wù),所述下載任務(wù)包括多個(gè)所述待下載網(wǎng)絡(luò)地址;
將包括有多個(gè)IP地址的代理IP地址池劃分為多個(gè)IP地址集合,每個(gè)所述IP地址集合包括多個(gè)所述代理IP地址池中的IP地址,每個(gè)所述IP地址集合包括的代理IP地址池中的IP地址的個(gè)數(shù)為所述IP地址集合的可支配IP個(gè)數(shù);
為每個(gè)下載任務(wù)分配一個(gè)所述IP地址集合作為下載任務(wù)的可支配IP地址集合,為每個(gè)下載任務(wù)建立包括多個(gè)下載線程的下載線程池,所述下載任務(wù)所包括的每個(gè)下載線程從下載任務(wù)的可支配IP地址集合中分配一個(gè)IP地址;
每個(gè)下載任務(wù)采用所述下載線程池執(zhí)行多線程下載,從下載任務(wù)所包括的待下載網(wǎng)絡(luò)地址下載網(wǎng)頁數(shù)據(jù);
對(duì)所述網(wǎng)頁數(shù)據(jù)進(jìn)行解析。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)爬蟲下載解析方法,其特征在于,采用如下方式計(jì)算每個(gè)所述IP地址集合的所述可支配IP個(gè)數(shù):
將多個(gè)所述待下載網(wǎng)絡(luò)地址劃分為m個(gè)所述下載任務(wù),每個(gè)下載任務(wù)包括多個(gè)所述待下載網(wǎng)絡(luò)地址,其中m為大于或等于2的自然數(shù);
將所述代理IP地址池中的n個(gè)IP地址劃分為m個(gè)IP地址集合,其中n為大于或等于m的自然數(shù),每個(gè)所述IP地址集合包括多個(gè)代理IP地址池中的IP地址;
計(jì)算以m為除數(shù)n為被除數(shù)的商,記為num1;
計(jì)算以m為除數(shù)n為被除數(shù)的余數(shù),記為num2;
令每個(gè)所述IP地址集合的可支配IP個(gè)數(shù)為num1,且如果num2大于0,則選擇num2個(gè)IP地址集合的可支配IP個(gè)數(shù)為num1+1。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)爬蟲下載解析方法,其特征在于,每個(gè)所述下載任務(wù)的所述下載線程池所包括的所述下載線程的數(shù)量少于或等于所述IP地址集合的可支配IP個(gè)數(shù)。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)爬蟲下載解析方法,其特征在于,為每個(gè)所述下載任務(wù)創(chuàng)建一個(gè)任務(wù)管理線程。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)爬蟲下載解析方法,其特征在于,采用與所述下載線程無關(guān)的解析線程對(duì)所述網(wǎng)頁數(shù)據(jù)進(jìn)行解析。
6.根據(jù)權(quán)利要求5所述的網(wǎng)絡(luò)爬蟲下載解析方法,其特征在于,每個(gè)所述下載任務(wù)采用所述下載線程池執(zhí)行多線程下載,從下載任務(wù)所包括的待下載網(wǎng)絡(luò)地址下載網(wǎng)頁數(shù)據(jù),并將所述網(wǎng)頁數(shù)據(jù)發(fā)送到包括多個(gè)解析線程的解析線程池,所述解析線程池采用所述解析線程對(duì)所述網(wǎng)頁數(shù)據(jù)執(zhí)行多線程解析。
7.一種網(wǎng)絡(luò)爬蟲下載解析裝置,其特征在于,包括:
下載任務(wù)生成模塊,用于將多個(gè)待下載網(wǎng)絡(luò)地址劃分為多個(gè)下載任務(wù),所述下載任務(wù)包括多個(gè)所述待下載網(wǎng)絡(luò)地址;
IP地址集合生成模塊,用于將包括有多個(gè)IP地址的代理IP地址池劃分為多個(gè)IP地址集合,每個(gè)所述IP地址集合包括多個(gè)所述代理IP地址池中的IP地址,每個(gè)所述IP地址集合包括的代理IP地址池中的IP地址的個(gè)數(shù)為所述IP地址集合的可支配IP個(gè)數(shù);
下載線程分配IP地址模塊,用于為每個(gè)下載任務(wù)分配一個(gè)所述IP地址集合作為下載任務(wù)的可支配IP地址集合,為每個(gè)下載任務(wù)建立包括多個(gè)下載線程的下載線程池,所述下載任務(wù)所包括的每個(gè)下載線程從下載任務(wù)的可支配IP地址集合中分配一個(gè)IP地址;
下載模塊,用于每個(gè)下載任務(wù)采用所述下載線程池執(zhí)行多線程下載,從下載任務(wù)所包括的待下載網(wǎng)絡(luò)地址下載網(wǎng)頁數(shù)據(jù);
解析模塊,用于對(duì)所述網(wǎng)頁數(shù)據(jù)進(jìn)行解析。
8.根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)爬蟲下載解析裝置,其特征在于,采用如下方式計(jì)算每個(gè)所述IP地址集合的所述可支配IP個(gè)數(shù):
將多個(gè)所述待下載網(wǎng)絡(luò)地址劃分為m個(gè)所述下載任務(wù),每個(gè)下載任務(wù)包括多個(gè)所述待下載網(wǎng)絡(luò)地址,其中m為大于或等于2的自然數(shù);
將所述代理IP地址池中的n個(gè)IP地址劃分為m個(gè)IP地址集合,其中n為大于或等于m的自然數(shù),每個(gè)所述IP地址集合包括多個(gè)代理IP地址池中的IP地址;
計(jì)算以m為除數(shù)n為被除數(shù)的商,記為num1;
計(jì)算以m為除數(shù)n為被除數(shù)的余數(shù),記為num2;
令每個(gè)所述IP地址集合的可支配IP個(gè)數(shù)為num1,且如果num2大于0,則選擇num2個(gè)IP地址集合的可支配IP個(gè)數(shù)為num1+1。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310471411.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種治療燙傷的藥膏
- 下一篇:制備癲癇發(fā)作動(dòng)物模型的方法
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 檢測反爬蟲策略安全性的方法及裝置
- 一種監(jiān)控網(wǎng)絡(luò)爬蟲的方法、裝置和系統(tǒng)
- 一種通過爬蟲狀態(tài)機(jī)管理爬蟲的方法及裝置
- 爬蟲協(xié)議管理方法及裝置、爬蟲系統(tǒng)
- 基于APP客戶端的爬蟲及爬取方法
- 視頻業(yè)務(wù)處理方法、裝置及電子設(shè)備
- 一種爬蟲方法、裝置、系統(tǒng)、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 分布式爬蟲系統(tǒng)架構(gòu)、爬取數(shù)據(jù)的方法和計(jì)算機(jī)設(shè)備
- 基于scrapy爬蟲框架的數(shù)據(jù)采集系統(tǒng)及方法
- 多中心綜合網(wǎng)絡(luò)爬蟲系統(tǒng)





