[發(fā)明專利]一種分布式數(shù)據(jù)采集方法、系統(tǒng)、服務(wù)器和存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011035041.6 | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112199567A | 公開(公告)日: | 2021-01-08 |
| 發(fā)明(設(shè)計)人: | 豆興捷 | 申請(專利權(quán))人: | 深圳市伊歐樂科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;H04L29/08;G06F9/54 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 潘登 |
| 地址: | 518000 廣東省深圳市寶安區(qū)新安街道大浪社區(qū)大寶路49-*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分布式 數(shù)據(jù) 采集 方法 系統(tǒng) 服務(wù)器 存儲 介質(zhì) | ||
本發(fā)明提供一種分布式數(shù)據(jù)采集方法,由分布式爬蟲系統(tǒng)的分節(jié)點爬蟲引擎執(zhí)行,包括:從分布式爬蟲系統(tǒng)的分節(jié)點服務(wù)器讀取共享任務(wù)隊列,以獲取一個或多個爬蟲任務(wù),所述共享任務(wù)隊列由所述分節(jié)點服務(wù)器從主服務(wù)器獲取;確定所述爬蟲任務(wù)的任務(wù)參數(shù),所述任務(wù)參數(shù)包括目標(biāo)網(wǎng)頁鏈接和數(shù)據(jù)獲取請求;將所述目標(biāo)網(wǎng)頁鏈接和數(shù)據(jù)獲取請求分發(fā)至一個或多個下載器,獲取目標(biāo)數(shù)據(jù);向所述分節(jié)點服務(wù)器返回隊列更新信息,以使所述分節(jié)點服務(wù)器將更新后的所述共享任務(wù)隊列反饋至主服務(wù)器并進(jìn)行同步更新。本發(fā)明在分布式爬蟲系統(tǒng)中實現(xiàn)對任務(wù)隊列在各個分節(jié)點的共享,使各個分節(jié)點能夠?qū)崟r獲取更新后的任務(wù)隊列,實現(xiàn)讀寫迅速,避免堵塞,提高爬蟲速度的效果。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及數(shù)據(jù)爬取領(lǐng)域,尤其涉及一種分布式數(shù)據(jù)采集方法、系統(tǒng)、服務(wù)器和存儲介質(zhì)。
背景技術(shù)
隨著網(wǎng)絡(luò)大數(shù)據(jù)時代來臨,企業(yè)為了保持競爭力,需要追蹤了解市場動向,這往往需要對數(shù)據(jù)進(jìn)行分析。數(shù)據(jù)作為分析的依據(jù),其來源不只限于業(yè)務(wù)數(shù)據(jù),還需從互聯(lián)網(wǎng)獲取更多的數(shù)據(jù)資源。為獲取數(shù)據(jù)資源需要投入大量人力資源及時間成本,實現(xiàn)自動化采集數(shù)據(jù)可以節(jié)省大量的人力資源及時間成本。隨著科技的的發(fā)展,網(wǎng)絡(luò)爬蟲在自動化采集過程中發(fā)揮著重要作用。目前比較流行的網(wǎng)絡(luò)爬蟲框架是Scrapy,Scrapy很好的集成了任務(wù)調(diào)度、去重、網(wǎng)頁下載、數(shù)據(jù)解析和數(shù)據(jù)保存等功能。
但是為了實現(xiàn)快速高效的數(shù)據(jù)采集,有時需要考慮分布式爬取,而Scrapy只能單機(jī)運行。Scrapy-redis雖然實現(xiàn)了分布式,但是它的調(diào)度機(jī)制會導(dǎo)致爬取速度降低和占用Redis大量的存儲空間。同時,為了滿足日益增加的爬取任務(wù),原有的框架在快速部署和穩(wěn)定性方面都需要優(yōu)化。
發(fā)明內(nèi)容
本發(fā)明提供一種分布式數(shù)據(jù)采集方法,通過在分布式爬蟲系統(tǒng)中的各個分服務(wù)器共享任務(wù)隊列,實現(xiàn)了數(shù)據(jù)爬取的快速和穩(wěn)定性,降低了占據(jù)redis的存儲空間。
第一方面,本發(fā)明提供一種分布式數(shù)據(jù)采集方法,由分布式爬蟲系統(tǒng)的分節(jié)點爬蟲引擎執(zhí)行,包括:
從分布式爬蟲系統(tǒng)的分節(jié)點服務(wù)器讀取共享任務(wù)隊列,以獲取一個或多個爬蟲任務(wù),所述共享任務(wù)隊列由所述分節(jié)點服務(wù)器從主服務(wù)器獲取;
確定所述爬蟲任務(wù)的任務(wù)參數(shù),所述任務(wù)參數(shù)包括目標(biāo)網(wǎng)頁鏈接和數(shù)據(jù)獲取請求;
將所述目標(biāo)網(wǎng)頁鏈接和數(shù)據(jù)獲取請求分發(fā)至一個或多個下載器,以使所述下載器在互聯(lián)網(wǎng)的目標(biāo)網(wǎng)頁鏈接發(fā)起所述數(shù)據(jù)獲取請求,獲取目標(biāo)數(shù)據(jù);
向所述分節(jié)點服務(wù)器返回隊列更新信息,以使所述分節(jié)點服務(wù)器將更新后的所述共享任務(wù)隊列反饋至主服務(wù)器并進(jìn)行同步更新。
進(jìn)一步地,所述數(shù)據(jù)獲取請求包括關(guān)鍵請求參數(shù),則所述將所述目標(biāo)網(wǎng)頁鏈接、數(shù)據(jù)獲取請求和關(guān)鍵請求參數(shù)分發(fā)至一個或多個下載器,包括:
從預(yù)設(shè)的IP代理池中獲取一個或多個第一IP;
將所述一個或多個第一IP分配至所述一個或多個下載器;
將所述目標(biāo)網(wǎng)頁鏈接、數(shù)據(jù)獲取請求和關(guān)鍵請求參數(shù)分發(fā)至一個或多個下載器,以使每個下載器基于所述第一IP在互聯(lián)網(wǎng)的目標(biāo)網(wǎng)頁鏈接發(fā)起所述數(shù)據(jù)獲取請求,獲取目標(biāo)數(shù)據(jù)。
進(jìn)一步地,所述將所述目標(biāo)網(wǎng)頁鏈接、數(shù)據(jù)獲取請求和關(guān)鍵請求參數(shù)分發(fā)至一個或多個下載器,以使每個下載器基于所述第一IP在互聯(lián)網(wǎng)的目標(biāo)網(wǎng)頁鏈接發(fā)起所述數(shù)據(jù)獲取請求,獲取目標(biāo)數(shù)據(jù)之后,還包括:
判斷所述下載器是否獲取到所述目標(biāo)數(shù)據(jù);
若否,則從所述IP代理池中獲取與所述第一IP不同的第二IP;
將所述第二IP發(fā)送至所述下載器,以使所述下載器基于所述第二IP在互聯(lián)網(wǎng)的目標(biāo)網(wǎng)頁鏈接發(fā)起所述數(shù)據(jù)獲取請求,獲取目標(biāo)數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市伊歐樂科技有限公司,未經(jīng)深圳市伊歐樂科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011035041.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





