日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于Scrapy-Redis的分布式網(wǎng)絡(luò)爬蟲優(yōu)化方法在審

專利信息
申請?zhí)枺?/td> 202010317200.5 申請日: 2020-04-21
公開(公告)號: CN111611463A 公開(公告)日: 2020-09-01
發(fā)明(設(shè)計(jì))人: 王寶亮;陳偉寧 申請(專利權(quán))人: 天津大學(xué)
主分類號: G06F16/951 分類號: G06F16/951;H04L12/24;H04L29/12
代理公司: 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 代理人: 程毓英
地址: 300072*** 國省代碼: 天津;12
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 scrapy redis 分布式 網(wǎng)絡(luò) 爬蟲 優(yōu)化 方法
【權(quán)利要求書】:

1.一種基于Scrapy-Redis的分布式網(wǎng)絡(luò)爬蟲優(yōu)化方法,包括以下方面:

(1)去重過程優(yōu)化

使用布隆過濾器代替指紋去重機(jī)制,在優(yōu)化后的去重過程中,元素集合使用位數(shù)組形式表示;當(dāng)一個元素被加入集合時,通過K個散列函數(shù)將此元素映射成一個位數(shù)組中的K個點(diǎn),并將所有點(diǎn)置為1;在進(jìn)行判別檢索時,若所有點(diǎn)的值均為1,則被檢元素大概率出現(xiàn)在集合中;若所有點(diǎn)中存在0,則被檢元素一定不在集合中。

(2)空閑監(jiān)測機(jī)制

采用空閑監(jiān)測機(jī)制,空閑監(jiān)測機(jī)制使用Scrapy中的spider_idle信號來監(jiān)測爬蟲的空閑狀態(tài),當(dāng)爬蟲進(jìn)入空閑狀態(tài)時,該信號被發(fā)送;爬蟲空閑時的三種情形:一是Request請求正在等待被下載;二是Request請求正在被調(diào)度;三是數(shù)據(jù)正在管道中被處理,為此三類情形設(shè)置一個空閑時間閾值作為分界條件,在接收到某節(jié)點(diǎn)的空閑信號之后,若監(jiān)聽到空閑時間小于等于空閑時間閾值,則節(jié)點(diǎn)繼續(xù)工作;若監(jiān)聽到空閑時間大于空閑時間閾值,則可以判定為該節(jié)點(diǎn)暫無待爬取任務(wù),即可結(jié)束此節(jié)點(diǎn)進(jìn)程;

(3)動態(tài)請求配置

當(dāng)客戶端頻繁向目的服務(wù)器發(fā)送請求時,可能被服務(wù)器辨認(rèn)為惡意程序進(jìn)而限定客戶端行為,通過配置動態(tài)請求解決此問題:

一是進(jìn)行動態(tài)IP的配置:維護(hù)一個可長期運(yùn)行的IP池以供使用,并在每次發(fā)起請求時保證IP的隨機(jī)性,為應(yīng)對請求失敗的情形,根據(jù)應(yīng)用場景,配置接收到何種響應(yīng)時嘗試再次請求,并配置嘗試請求次數(shù)達(dá)到何值時視為爬蟲失敗;同時,保證動態(tài)IP與Scrapy中下載中間件的關(guān)聯(lián)性;

二是進(jìn)行動態(tài)請求頭的配置:按真實(shí)請求頭規(guī)范編寫一個請求頭集合,用來模擬各類瀏覽器發(fā)起請求的過程,禁用Scrapy下載中間件中的請求頭設(shè)置。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010317200.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 99久久免费精品国产免费高清| 国产乱色国产精品播放视频| 国产精品免费一视频区二区三区| 538国产精品一区二区在线| 午夜激情综合网| 久久人人97超碰婷婷开心情五月| 午夜色大片| 亚洲欧美日韩国产综合精品二区| 亚洲码在线| 国产精品99在线播放| 国产欧美日韩一区二区三区四区| 国内久久久| 国产精品一区二| 欧美一区二区三区爽大粗免费| 国产97在线播放| 午夜av网址| 91香蕉一区二区三区在线观看| 欧美极品少妇xx高潮| 国产精品色在线网站 | 91一区在线观看| 日韩中文字幕亚洲欧美| 国内揄拍国产精品| 欧美乱偷一区二区三区在线 | 欧美一区二区三区爽大粗免费| 91麻豆精品国产91久久久更新时间| 亚洲高清国产精品| 91精品国产综合久久婷婷香| 最新日韩一区| 欧美亚洲视频二区| 久久天天躁狠狠躁亚洲综合公司| 国产精品欧美久久| 国产欧美一区二区精品婷| 日韩av一二三四区| 欧美高清一二三区| 欧美一区二区三区久久精品| 国内精品99| 国产大片黄在线观看私人影院 | 午夜免费网址| 日本少妇一区二区三区| 激情久久综合网| 久久久久久久亚洲视频| 国产目拍亚洲精品区一区| 欧美一区二区三区四区在线观看| 黄色香港三级三级三级| 日本三级香港三级网站| 国产欧美久久一区二区三区| 日韩精品一区二区亚洲| 国产亚洲精品久久久456| 日韩一区二区精品| 国产一区正在播放| 99国产精品免费| 女人被爽到高潮呻吟免费看| 精品国产一区二区三区忘忧草| 国产天堂第一区| 特级免费黄色片| 国产精品黑色丝袜的老师| 久久国产中文字幕| 97精品国产aⅴ7777| 91精品国产高清一区二区三区| 91精品丝袜国产高跟在线| 亚欧精品在线观看| 国产剧情在线观看一区二区| 国产www亚洲а∨天堂| 欧美日韩综合一区二区| 91精品国产九九九久久久亚洲| 99久久国产综合精品女不卡| 欧美精品一区久久| 欧美日韩一区二区高清| 久久狠狠高潮亚洲精品| 亚洲精品97久久久babes| 亚洲国产精品91| 91精品一区在线观看| 中文字幕a一二三在线| 国产精品一区久久人人爽| 日韩国产精品一区二区| 亚洲精品少妇一区二区| 精品国产一区二区三区麻豆免费观看完整版| 黄色av中文字幕| 欧美视屏一区二区| 国产女人和拘做受视频免费| 国产精品视频99| 在线国产二区|