[發(fā)明專(zhuān)利]一種利用云端進(jìn)行并發(fā)采集的爬蟲(chóng)實(shí)現(xiàn)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201610853399.7 | 申請(qǐng)日: | 2016-09-27 |
| 公開(kāi)(公告)號(hào): | CN106657228A | 公開(kāi)(公告)日: | 2017-05-10 |
| 發(fā)明(設(shè)計(jì))人: | 王洪添;張?jiān)3?/a> | 申請(qǐng)(專(zhuān)利權(quán))人: | 山東浪潮云服務(wù)信息科技有限公司 |
| 主分類(lèi)號(hào): | H04L29/08 | 分類(lèi)號(hào): | H04L29/08;G06F17/30 |
| 代理公司: | 濟(jì)南信達(dá)專(zhuān)利事務(wù)所有限公司37100 | 代理人: | 孟峣 |
| 地址: | 250100 山東省濟(jì)南市高*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 利用 云端 進(jìn)行 并發(fā) 采集 爬蟲(chóng) 實(shí)現(xiàn) 方法 | ||
1.一種利用云端進(jìn)行并發(fā)采集的爬蟲(chóng)實(shí)現(xiàn)方法,其特征在于,包括爬蟲(chóng)端和若干云節(jié)點(diǎn)服務(wù)端,其實(shí)現(xiàn)過(guò)程為:
1)爬蟲(chóng)端通過(guò)云節(jié)點(diǎn)服務(wù)端進(jìn)行采集,爬蟲(chóng)端將采集任務(wù)批次發(fā)送到云節(jié)點(diǎn)服務(wù)端,通過(guò)校驗(yàn)、請(qǐng)求處理實(shí)現(xiàn)云節(jié)點(diǎn)服務(wù)端任務(wù)分發(fā);
2)云節(jié)點(diǎn)服務(wù)端進(jìn)行狀態(tài)檢測(cè),實(shí)時(shí)檢測(cè)云節(jié)點(diǎn)服務(wù)端的可用狀態(tài)以及任務(wù)隊(duì)列和下載隊(duì)列排隊(duì)情況,并根據(jù)云節(jié)點(diǎn)服務(wù)端情況選擇是否發(fā)送任務(wù)或者是否立刻收取網(wǎng)頁(yè);
3)爬蟲(chóng)端將本地?cái)?shù)據(jù)庫(kù)的配置同步至云節(jié)點(diǎn)服務(wù)端;
4)云節(jié)點(diǎn)服務(wù)端網(wǎng)頁(yè)收取,爬蟲(chóng)端向云節(jié)點(diǎn)服務(wù)端請(qǐng)求已經(jīng)下載的頁(yè)面,云節(jié)點(diǎn)服務(wù)端批量返回已經(jīng)下載的頁(yè)面;
5)爬蟲(chóng)端實(shí)現(xiàn)下載任務(wù)的異常容錯(cuò)處理和事物控制,通過(guò)本地緩存和數(shù)據(jù)實(shí)現(xiàn)異常容錯(cuò)處理,保證網(wǎng)頁(yè)不丟失。
2.根據(jù)權(quán)利要求1所述的一種利用云端進(jìn)行并發(fā)采集的爬蟲(chóng)實(shí)現(xiàn)方法,其特征在于,所述步驟1)的詳細(xì)過(guò)程為:
爬蟲(chóng)端從下載任務(wù)的生產(chǎn)者中接收下載任務(wù),該生產(chǎn)者是數(shù)據(jù)庫(kù)中的待下載數(shù)據(jù)或者消息隊(duì)列中的待下載數(shù)據(jù);
爬蟲(chóng)端定時(shí)同步現(xiàn)有任務(wù)配置至云節(jié)點(diǎn)服務(wù)端,云節(jié)點(diǎn)服務(wù)端根據(jù)規(guī)則進(jìn)行間隔下載;
爬蟲(chóng)端定時(shí)檢查所有云節(jié)點(diǎn)服務(wù)端狀態(tài),選擇可用同時(shí)任務(wù)排隊(duì)數(shù)小于排隊(duì)閾值的云節(jié)點(diǎn)服務(wù)端;
爬蟲(chóng)端將任務(wù)均勻的發(fā)送至云節(jié)點(diǎn)服務(wù)端,并且記錄發(fā)送信息備份到本地緩存以及數(shù)據(jù)庫(kù)中。
3.根據(jù)權(quán)利要求2所述的一種利用云端進(jìn)行并發(fā)采集的爬蟲(chóng)實(shí)現(xiàn)方法,其特征在于,爬蟲(chóng)端定時(shí)檢查云節(jié)點(diǎn)服務(wù)端的狀態(tài)是指通過(guò)tcp或http方式進(jìn)行數(shù)據(jù)查看,查看云端的可用狀態(tài)、已有任務(wù)配置數(shù)、待下載任務(wù)排隊(duì)數(shù)、已下載網(wǎng)頁(yè)數(shù),并將狀態(tài)等數(shù)值緩存到本地。
4.根據(jù)權(quán)利要求1所述的一種利用云端進(jìn)行并發(fā)采集的爬蟲(chóng)實(shí)現(xiàn)方法,其特征在于,所述步驟3)中配置同步是指爬蟲(chóng)端從數(shù)據(jù)庫(kù)加載任務(wù)配置,并推送至云節(jié)點(diǎn)服務(wù)端,實(shí)時(shí)檢查云節(jié)點(diǎn)服務(wù)端配置和爬蟲(chóng)端是否相同,如果不同則全部同步一次。
5.根據(jù)權(quán)利要求1所述的一種利用云端進(jìn)行并發(fā)采集的爬蟲(chóng)實(shí)現(xiàn)方法,其特征在于,所述步驟2)及步驟4)中的網(wǎng)頁(yè)收取是指爬蟲(chóng)端定期檢查云端已下載網(wǎng)頁(yè)數(shù),當(dāng)已下載網(wǎng)頁(yè)數(shù)超過(guò)指定閾值時(shí)立即收取該云端的網(wǎng)頁(yè)。
6.根據(jù)權(quán)利要求5所述的一種利用云端進(jìn)行并發(fā)采集的爬蟲(chóng)實(shí)現(xiàn)方法,其特征在于,所述步驟4)的詳細(xì)過(guò)程為:
爬蟲(chóng)端定時(shí)檢查云節(jié)點(diǎn)服務(wù)端已下載網(wǎng)頁(yè)數(shù),當(dāng)已下載網(wǎng)頁(yè)數(shù)超過(guò)已下載閾值時(shí)收取云節(jié)點(diǎn)已下載網(wǎng)頁(yè),并清空云節(jié)點(diǎn)上存儲(chǔ)的網(wǎng)頁(yè);
該爬蟲(chóng)端定時(shí)從云節(jié)點(diǎn)服務(wù)端獲取已下載網(wǎng)頁(yè)隊(duì)列中的網(wǎng)頁(yè)數(shù)據(jù),收取到網(wǎng)頁(yè)后根據(jù)關(guān)鍵字段刪除本地緩存和數(shù)據(jù)庫(kù)中記錄的備份信息,這里的關(guān)鍵字段包括任務(wù)ID、URL。
7.根據(jù)權(quán)利要求1所述的一種利用云端進(jìn)行并發(fā)采集的爬蟲(chóng)實(shí)現(xiàn)方法,其特征在于,所述步驟5)中容錯(cuò)處理是指通過(guò)爬蟲(chóng)端緩存和數(shù)據(jù)庫(kù)記錄進(jìn)行雙重保障,對(duì)云端和爬蟲(chóng)端同時(shí)進(jìn)行容錯(cuò),即通過(guò)本地緩存和數(shù)據(jù)庫(kù)記錄任務(wù)發(fā)送歷史,將收取的網(wǎng)頁(yè)和發(fā)送歷史進(jìn)行對(duì)比,一定時(shí)間內(nèi)未下載的網(wǎng)頁(yè)視為下載失敗,進(jìn)行重發(fā)處理。
8.根據(jù)權(quán)利要求7所述的一種利用云端進(jìn)行并發(fā)采集的爬蟲(chóng)實(shí)現(xiàn)方法,其特征在于,所述步驟5)的詳細(xì)過(guò)程為:
爬蟲(chóng)端每次啟動(dòng)時(shí)均查詢(xún)數(shù)據(jù)庫(kù)中的任務(wù)備份信息,恢復(fù)未被下載的任務(wù);且該爬蟲(chóng)端定時(shí)檢查本地緩存,當(dāng)有任務(wù)加入緩存的時(shí)間超過(guò)下載時(shí)長(zhǎng)閾值時(shí),視為下載失敗,重啟該下載任務(wù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于山東浪潮云服務(wù)信息科技有限公司,未經(jīng)山東浪潮云服務(wù)信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610853399.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 請(qǐng)求沒(méi)有進(jìn)行IMS注冊(cè)的用戶(hù)進(jìn)行注冊(cè)的方法
- 對(duì)要進(jìn)行紋理操作的像素進(jìn)行分組
- 對(duì)餐盤(pán)進(jìn)行溫度調(diào)節(jié)和進(jìn)行分配的獨(dú)立小車(chē)
- 對(duì)圖像進(jìn)行編碼
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 蛋糕(甜蜜進(jìn)行時(shí))
- 對(duì)定位輔助數(shù)據(jù)進(jìn)行分級(jí)和分組以進(jìn)行廣播
- 對(duì)物體進(jìn)行分離和定向以進(jìn)行供料
- 對(duì)工件進(jìn)行評(píng)價(jià)以進(jìn)行加工的方法





