日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于連接代理優化管理的多線程網絡爬蟲處理方法有效

專利信息
申請號: 201410146375.9 申請日: 2014-04-11
公開(公告)號: CN103902386B 公開(公告)日: 2017-05-10
發明(設計)人: 羅邦慧;曾劍平 申請(專利權)人: 復旦大學
主分類號: G06F9/50 分類號: G06F9/50;G06F17/30;H04L29/08
代理公司: 上海正旦專利代理有限公司31200 代理人: 陸飛,王潔平
地址: 200433 *** 國省代碼: 上海;31
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 連接 代理 優化 管理 多線程 網絡 爬蟲 處理 方法
【說明書】:

技術領域

發明涉及信息處理技術領域,具體涉及一種新型的Web頁面信息獲取方法,特別是在現有網絡爬蟲原理的基礎上進行連接代理優化管理設計的新型網絡爬蟲處理方法。

背景技術

隨著網絡的迅速發展,網絡成為大量信息的載體,如何有效地提取這些信息成為一個巨大的挑戰。

網絡爬蟲是搜索引擎系統中十分重要的組成部分,它負責從互聯網中搜集網頁,采集信息,這些網頁信息用于建立索引從而為搜索引擎提供支持,其性能的優劣直接影響著搜索引擎的效果。隨著網絡信息量幾何級的增長,對網絡爬蟲頁面采集的性能和效率的要求也越來越高。

我們總是希望在更短的時間內,獲取更多的數據,但是,這會對網站造成非常高的負載,也帶來了網絡流量增加,泄露隱私數據等問題,很多網站采用爬蟲檢測技術,分析 Web訪問日志,當判斷出爬蟲時,則禁止爬蟲使用地址,拒絕爬蟲繼續訪問。為讓爬蟲能夠避免被監測出來,針對網站對爬蟲檢測方法,目前已經設計出了大量的分布式網絡爬蟲,偽裝網絡爬蟲和使用代理的網絡爬蟲,如斯坦福大學設計的Google爬蟲、Disguised Spider、Internet Archive爬蟲。它們采取更換 UserAgent,設置訪問時間間隔和優化URL訪問策略,使用代理服務器、多線程等方法優化爬蟲。但在實際使用爬蟲時,會遇到如下問題:(1)間隔參數沒有具體的定義標準,爬蟲性能得不到保證。當網站對爬蟲檢測非常嚴格時,爬蟲需要很長的間隔時間,導致爬蟲實用性不高,間隔縮短,會導致爬蟲被鑒別出來而不可用。(2)使用代理服務器,需要根據代理服務器性能和多線程的數量來優化爬蟲效率,但是目前的研究中并沒有給出如何優化的具體方法,如果設置了不合適的關系值,那么爬蟲效率會非常低。

由此可見,在現有爬蟲技術的基礎上,采用合理的代理連接管理方法來對爬蟲數據獲取線程進行優化配置,對于提升爬蟲性能、避免爬蟲被服務器拒絕是非常重要的。本發明給出了一種符合這種要求的設計方法。

發明內容

本發明的主要目的是針對爬蟲訪問Web 頁面時被拒的問題,提出一種基于連接代理優化管理的多線程網絡爬蟲,避免被服務器端檢測。這種方法具有一定的適應能力,能夠解決爬蟲在進行Web頁面獲取時被拒絕的問題。這種方法充分利用了現有互聯網上公開的網絡連接代理服務,在多線程爬行中進行了代理連接的優化管理和設計,通過代理服務的自動選擇機制避免重復使用同一個客戶端IP地址連接Web服務器,從而避免被服務端檢測。

本發明提出的基于連接代理優化管理的多線程網絡爬蟲處理方法,主要使用了多個連接代理,并提出有效的代理管理策略和參數設置方案,在多線程爬蟲的基礎上應用多代理進行數據爬取。 其首先獲取網絡上公開代理服務器,測試代理服務器的網絡連接性能,并根據代理服務器性能得到最優的線程數量;然后對代理服務器池進行管理,并為每一個 Http 請求設置一個有效代理服務器,最終執行Web頁面訪問請求。其中:

根據代理池中的代理服務器性能確定線程數量M,采用的計算公式如下:

其中, 為代理服務器的失敗率,v 為爬取速度, 為代理池中代理服務

器的響應時間期望值;

對代理服務器池進行管理,并為每一個 Http 請求設置一個有效代理服務器時,把代理服務器的失敗率和 響應時間作為鑒別一個代理是否有效的標準;隔段時間以后,再次嘗試使用之前被判斷為不能使用的代理,從而把 無效的代理服務器池中可用的代理放入有效的代理服務器池中;代理任務分配時,為每個線程獲取有效的代理服務器池中使用次數最少的代理,以均衡地把任務分配給每一個代理。

本發明中,采用最小使用次數優先隊列實現代理任務分配。用鏈表來存儲代理,并記錄在時間窗口內代理的使用次數。按照代理的使用次數由小到大的順序,對鏈表進行排序。插入代理時,使用插入排序方法,從鏈表表尾的位置開始比較代理的使用次數,當在鏈表中找到使用次數不大于該代理的代理時,插入其后。需要提供代理使用時,獲取鏈表表頭位置的代理,并刪除此代理。

本發明中,根據代理服務器響應時間,計算出爬蟲的平均反應時間期望值,計算公式如下:

其中, 為第 i 個代理服務器的響應時間, N 為代理服務器個數。

本發明中,根據代理服務器狀態隊列、代理服務器在時間窗口 W 內的失敗次數,計算出失敗率;計算公式如下:

其中,failedTimes 為連接執行期間代理服務器的失敗次數,usedTimes 為

代理服務器的使用次數。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201410146375.9/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 午夜av免费观看| 亚洲精品乱码久久久久久按摩| 蜜臀久久久久久999| 夜夜夜夜夜猛噜噜噜噜噜gg| 国产精品一区二区日韩新区| 欧美一区二区免费视频| 日本精品99| 国产91在线播放| 国产高清不卡一区| **毛片在线| 久久精品国产亚| 国产一区观看| 国产福利一区在线观看| 狠狠色丁香久久婷婷综合_中| 电影91久久久| 夜夜躁日日躁狠狠躁| 93久久精品日日躁夜夜躁欧美| 久久精品一区二区三区电影| 国产精品入口麻豆九色| 色一情一乱一乱一区99av白浆| xxxx18hd护士hd护士| 午夜a电影| 99国产超薄丝袜足j在线观看| 99久久精品免费看国产免费粉嫩| 大桥未久黑人强制中出| 午夜影院啪啪| 国产日韩欧美精品一区| 夜夜躁狠狠躁日日躁2024| 男女午夜影院| 亚洲乱视频| 少妇中文字幕乱码亚洲影视| 少妇又紧又色又爽又刺激视频网站| 91亚洲国产在人线播放午夜| 91久久国产视频| 国产一区二区视频在线| www.午夜av| 国产在线精品一区| 国产伦精品一区二区三区四区| 亚洲1区2区3区4区| 国产精品黑色丝袜的老师| 欧美精选一区二区三区| 国产乱码一区二区| 91麻豆国产自产在线观看hd| www.成| 偷拍久久精品视频| 中文乱码字幕永久永久电影| 欧美日韩国产一级| 亚洲欧美一区二区三区1000| 欧美大片一区二区三区| 久久久久国产精品www| 美日韩一区| 国产日韩欧美精品一区二区| 国产一区观看| 亚洲欧美色一区二区三区| 久久激情影院| 日日夜夜一区二区| 国产91热爆ts人妖系列| 色综合久久久久久久粉嫩| 国产欧美一区二区精品久久| 精品国产免费一区二区三区| 99久久夜色精品国产网站| 日韩精品一区二区中文字幕| 国产一区在线视频观看| 97视频精品一二区ai换脸| 日韩一级在线视频| 精品久久9999| 国产高清不卡一区| 欧美黑人巨大久久久精品一区| 国产欧美一区二区三区不卡高清| 日韩精品免费一区二区三区| 国产精品综合一区二区三区| 久久91精品国产91久久久| 中文字幕在线播放一区| 久久99精品久久久久婷婷暖91| 国产精品综合一区二区| 国产激情视频一区二区| 免费精品99久久国产综合精品应用| 四虎国产精品永久在线| 97久久久久亚洲| 精品少妇一区二区三区 | 欧美日韩一级二级三级| 午夜影院黄色片| 91波多野结衣| 日本一二三区视频| 丰满少妇在线播放bd日韩电影| 午夜国产一区二区三区| 国产精品久久久久久久久久不蜜月| 国产一区在线免费| 亚洲国产美女精品久久久久∴| xxxx国产一二三区xxxx| 99er热精品视频国产| 91精品国产麻豆国产自产在线| ass美女的沟沟pics| 欧美日韩精品在线一区二区| 国产理论一区| 亚洲福利视频二区| 5g影院天天爽入口入口| 亚洲综合日韩精品欧美综合区| 国产精品免费自拍| 国产1区2区3区| 久久密av| 淫片免费看| 日韩精品一区二区中文字幕| 亚洲第一天堂久久| 精品久久久久久久久亚洲| 国产精品乱码久久久久久久| 欧美日韩一区免费| 99久久婷婷国产综合精品电影| 国产精品久久国产三级国电话系列| 久久精品手机视频| 国产精品自拍在线| 欧美一区二区三区久久精品| 狠狠色狠狠色综合久久第一次| 免费a级毛片18以上观看精品| 欧美高清极品videossex| 久久久久久中文字幕| 国产乱人伦偷精品视频免下载| 国产精品亚州| 国产乱了高清露脸对白| 午夜欧美a级理论片915影院| 自拍偷在线精品自拍偷写真图片| 4399午夜理伦免费播放大全| 欧美网站一区二区三区| 色婷婷综合久久久久中文| 国产在线一区不卡| 国产精品剧情一区二区三区| 国产一级二级在线| 精品一区二区三区自拍图片区| 久久免费福利视频| 欧美国产精品久久| 香蕉视频在线观看一区二区 | 麻豆精品国产入口| 国产美女三级无套内谢| av国产精品毛片一区二区小说| 91人人爽人人爽人人精88v| 久久99亚洲精品久久99果| 国产午夜精品一区二区三区在线观看| 免费毛片a| 欧美一区二区三区久久| 99日本精品| 黄色av中文字幕| bbbbb女女女女女bbbbb国产 | 日本丰满岳妇伦3在线观看| 久久国产欧美日韩精品| 午夜av男人的天堂| 午夜剧场一级片| 视频一区二区中文字幕| 精品国产一区二区三| 在线观看欧美日韩国产| 亚洲欧美日韩综合在线| 精品国产乱码久久久久久影片| 97国产精品久久| 欧美日本91精品久久久久| 欧美日韩国产精品一区二区三区| 日韩精品中文字幕在线| 亚洲国产一区二| 国产69精品久久久久app下载| 午夜国产一区二区三区四区| 91九色精品| 午夜在线观看av| 精品中文久久| 亚洲国产精品97久久无色| 日韩av在线播放网址| 国产精品一区二区三区在线看| 日韩av在线播| 理论片午午伦夜理片在线播放| 国产精品尤物麻豆一区二区三区| 欧美一区二区三区黄| 欧美精品五区| 国产精品一二二区| 欧美一区二区三区久久| 制服.丝袜.亚洲.另类.中文| 亚洲欧美日韩另类精品一区二区三区| 午夜影院黄色片| 国产videosfree性另类| 午夜在线看片| 国产精品一区二区在线看| 国久久久久久| 欧美精品乱码视频一二专区| 国产一区二区三区精品在线| 一本大道久久a久久精品| 68精品国产免费久久久久久婷婷 | 国产精品二区一区二区aⅴ| 国产人成看黄久久久久久久久| 亚洲欧美视频一区二区| 岛国黄色av| 午夜色影院| 亚洲精品欧美精品日韩精品| 欧美一区视频观看| 亚洲精品久久久久999中文字幕| 99精品久久99久久久久| 91秒拍国产福利一区| 亚洲精品无吗| 国产日韩欧美在线影视| 中文字幕制服狠久久日韩二区| 国产日产精品一区二区三区| 国产97久久| 99久久久国产精品免费调教网站 | 欧美日韩高清一区二区| 国产一卡二卡在线播放| 色综合久久网| 少妇性色午夜淫片aaa播放5| 91黄在线看| 亚洲精品日本久久一区二区三区| 91丝袜诱惑| 丰满少妇高潮惨叫久久久一| 人人玩人人添人人澡97| 农村妇女精品一区二区| 国产性猛交xx乱视频| 精品一区二区超碰久久久| 国产精品尤物麻豆一区二区三区| 免费久久99精品国产婷婷六月| 亚洲四区在线| 国产精品久久久久久久综合| 91麻豆精品国产91久久久久推荐资源| 97精品国产97久久久久久| 99色精品视频| 国产精品视频二区不卡| 国产日韩精品一区二区三区| 亚洲欧美日韩三区| 国产精自产拍久久久久久蜜| 国产精品亚洲二区| 国产一区二区高潮| 天堂av一区二区| 欧美乱妇在线观看| 91精品国产91久久久| 欧美一区二区三区精品免费| 精品久久久久久中文字幕| 亚洲免费精品一区二区| 亚洲国产精品国自产拍av | 久久夜色精品国产亚洲| 国产午夜精品一区二区三区视频| 国产女性无套免费看网站| 亚洲高清国产精品| 国产一区亚洲一区| 欧美精品八区| 午夜剧场伦理| 国产第一区二区三区| 亚洲影院久久| 国产日韩欧美精品一区| 国产在线一区观看| 亚洲精品日韩精品| 国产精华一区二区精华| 久久亚洲精品国产日韩高潮| 国产视频一区二区在线| 在线国产精品一区二区|