日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于連接代理優化管理的多線程網絡爬蟲處理方法有效

專利信息
申請號: 201410146375.9 申請日: 2014-04-11
公開(公告)號: CN103902386B 公開(公告)日: 2017-05-10
發明(設計)人: 羅邦慧;曾劍平 申請(專利權)人: 復旦大學
主分類號: G06F9/50 分類號: G06F9/50;G06F17/30;H04L29/08
代理公司: 上海正旦專利代理有限公司31200 代理人: 陸飛,王潔平
地址: 200433 *** 國省代碼: 上海;31
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 連接 代理 優化 管理 多線程 網絡 爬蟲 處理 方法
【說明書】:

技術領域

發明涉及信息處理技術領域,具體涉及一種新型的Web頁面信息獲取方法,特別是在現有網絡爬蟲原理的基礎上進行連接代理優化管理設計的新型網絡爬蟲處理方法。

背景技術

隨著網絡的迅速發展,網絡成為大量信息的載體,如何有效地提取這些信息成為一個巨大的挑戰。

網絡爬蟲是搜索引擎系統中十分重要的組成部分,它負責從互聯網中搜集網頁,采集信息,這些網頁信息用于建立索引從而為搜索引擎提供支持,其性能的優劣直接影響著搜索引擎的效果。隨著網絡信息量幾何級的增長,對網絡爬蟲頁面采集的性能和效率的要求也越來越高。

我們總是希望在更短的時間內,獲取更多的數據,但是,這會對網站造成非常高的負載,也帶來了網絡流量增加,泄露隱私數據等問題,很多網站采用爬蟲檢測技術,分析 Web訪問日志,當判斷出爬蟲時,則禁止爬蟲使用地址,拒絕爬蟲繼續訪問。為讓爬蟲能夠避免被監測出來,針對網站對爬蟲檢測方法,目前已經設計出了大量的分布式網絡爬蟲,偽裝網絡爬蟲和使用代理的網絡爬蟲,如斯坦福大學設計的Google爬蟲、Disguised Spider、Internet Archive爬蟲。它們采取更換 UserAgent,設置訪問時間間隔和優化URL訪問策略,使用代理服務器、多線程等方法優化爬蟲。但在實際使用爬蟲時,會遇到如下問題:(1)間隔參數沒有具體的定義標準,爬蟲性能得不到保證。當網站對爬蟲檢測非常嚴格時,爬蟲需要很長的間隔時間,導致爬蟲實用性不高,間隔縮短,會導致爬蟲被鑒別出來而不可用。(2)使用代理服務器,需要根據代理服務器性能和多線程的數量來優化爬蟲效率,但是目前的研究中并沒有給出如何優化的具體方法,如果設置了不合適的關系值,那么爬蟲效率會非常低。

由此可見,在現有爬蟲技術的基礎上,采用合理的代理連接管理方法來對爬蟲數據獲取線程進行優化配置,對于提升爬蟲性能、避免爬蟲被服務器拒絕是非常重要的。本發明給出了一種符合這種要求的設計方法。

發明內容

本發明的主要目的是針對爬蟲訪問Web 頁面時被拒的問題,提出一種基于連接代理優化管理的多線程網絡爬蟲,避免被服務器端檢測。這種方法具有一定的適應能力,能夠解決爬蟲在進行Web頁面獲取時被拒絕的問題。這種方法充分利用了現有互聯網上公開的網絡連接代理服務,在多線程爬行中進行了代理連接的優化管理和設計,通過代理服務的自動選擇機制避免重復使用同一個客戶端IP地址連接Web服務器,從而避免被服務端檢測。

本發明提出的基于連接代理優化管理的多線程網絡爬蟲處理方法,主要使用了多個連接代理,并提出有效的代理管理策略和參數設置方案,在多線程爬蟲的基礎上應用多代理進行數據爬取。 其首先獲取網絡上公開代理服務器,測試代理服務器的網絡連接性能,并根據代理服務器性能得到最優的線程數量;然后對代理服務器池進行管理,并為每一個 Http 請求設置一個有效代理服務器,最終執行Web頁面訪問請求。其中:

根據代理池中的代理服務器性能確定線程數量M,采用的計算公式如下:

其中, 為代理服務器的失敗率,v 為爬取速度, 為代理池中代理服務

器的響應時間期望值;

對代理服務器池進行管理,并為每一個 Http 請求設置一個有效代理服務器時,把代理服務器的失敗率和 響應時間作為鑒別一個代理是否有效的標準;隔段時間以后,再次嘗試使用之前被判斷為不能使用的代理,從而把 無效的代理服務器池中可用的代理放入有效的代理服務器池中;代理任務分配時,為每個線程獲取有效的代理服務器池中使用次數最少的代理,以均衡地把任務分配給每一個代理。

本發明中,采用最小使用次數優先隊列實現代理任務分配。用鏈表來存儲代理,并記錄在時間窗口內代理的使用次數。按照代理的使用次數由小到大的順序,對鏈表進行排序。插入代理時,使用插入排序方法,從鏈表表尾的位置開始比較代理的使用次數,當在鏈表中找到使用次數不大于該代理的代理時,插入其后。需要提供代理使用時,獲取鏈表表頭位置的代理,并刪除此代理。

本發明中,根據代理服務器響應時間,計算出爬蟲的平均反應時間期望值,計算公式如下:

其中, 為第 i 個代理服務器的響應時間, N 為代理服務器個數。

本發明中,根據代理服務器狀態隊列、代理服務器在時間窗口 W 內的失敗次數,計算出失敗率;計算公式如下:

其中,failedTimes 為連接執行期間代理服務器的失敗次數,usedTimes 為

代理服務器的使用次數。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201410146375.9/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产二区不卡| 色噜噜狠狠色综合中文字幕| 久久久久久久久亚洲精品| 99精品国产一区二区三区不卡| 亚洲精品欧美精品日韩精品| 亚洲精品国产一区| 91黄色免费看| 欧美日韩一区二区三区在线观看视频| 欧美在线观看视频一区二区三区| 国产suv精品一区二区4| 久久午夜鲁丝片午夜精品| 夜夜嗨av一区二区三区中文字幕 | 狠狠色噜噜狠狠狠狠69| 久久久精品a| 国产在线视频99| 久久第一区| 99久久精品一区字幕狠狠婷婷| 激情久久综合| 色综合久久久| 99re热精品视频国产免费| 伊人精品一区二区三区| 国产精品suv一区二区6| 高清欧美精品xxxxx| 欧美日韩中文字幕一区二区三区| 亚洲精品国产setv| 欧美在线播放一区| 欧美亚洲精品suv一区| 国产精品美女www爽爽爽视频| 夜夜躁日日躁狠狠躁| 国产999精品久久久久久绿帽| 狠狠色噜噜狠狠狠合久| 91久久久久久亚洲精品禁果| 久久艹亚洲| 91视频一区二区三区| 午夜666| 国产精品videossex国产高清| 强制中出し~大桥未久10| 天干天干天啪啪夜爽爽99| 国产精品国产三级国产专区51区| 欧美乱大交xxxxx| 久久精品视频一区二区| 国产精品一区二区av日韩在线| 国产91九色在线播放| 亚洲欧洲精品一区二区三区不卡| 国产91免费在线| 九九视频69精品视频秋欲浓| 日韩精品1区2区3区| 国产精品一区久久人人爽| 精品中文久久| 欧美一区二区久久| 日韩欧美国产高清91| 国产99久久久久久免费看| 浪潮av色| 日韩av在线导航| 国产日韩欧美精品| 日韩精品久久一区二区| 亚洲欧美一卡| 亚洲s码欧洲m码在线观看| 国产亚洲精品久久午夜玫瑰园| 国产欧美精品一区二区三区小说 | 国产精品无码永久免费888| 好吊妞国产欧美日韩免费观看网站| 午夜伦全在线观看| 强制中出し~大桥未久在线播放| 日韩午夜电影院| 999久久久国产| 中文字幕一区二区三区免费| 视频一区二区中文字幕| 国内精品99| 偷拍久久精品视频| 岛国黄色av| 国产午夜伦理片| 亚洲国产一区二区精华液| 亚洲欧美自拍一区| 国产亚洲精品久久久456| 欧美激情精品一区| 91福利视频免费观看| 国产呻吟久久久久久久92| 久久国产精品精品国产| 免费午夜片| 少妇av一区二区三区| 香港三日本8a三级少妇三级99 | 一区二区久久精品66国产精品| 欧美一区二区性放荡片| 国产aⅴ精品久久久久久| 色婷婷噜噜久久国产精品12p| 久久综合二区| 亚洲一二区在线观看| 国产午夜精品理论片| 国产一区二区资源| 欧美日韩三区| 欧美一区二区三区爽大粗免费| 日韩av免费网站| 欧美日韩一区二区三区四区五区| 欧美一区二三区人人喊爽| 欧美日本三级少妇三级久久| 国产精品亚洲二区| 91精品色| 午夜老司机电影| 国产精品视频久久久久| 国产一区激情| 视频一区欧美| 日韩亚洲欧美一区二区| 亚洲午夜久久久久久久久电影院| 丰满少妇高潮惨叫久久久一| 日韩av一区不卡| 麻豆国产一区二区| 午夜剧场a级免费| 日本一区二区三区免费在线| 国产亚洲精品久久午夜玫瑰园| 日韩精品久久久久久久的张开腿让 | 亚洲精品国产久| 91av中文字幕| 国产欧美日韩在线观看| 一级黄色片免费网站| 九色国产精品入口| 欧美久久一区二区三区| 欧美一区二三区| 国产精品高潮呻吟88av| 三级视频一区| 久久综合国产伦精品免费| 午夜在线看片| 欧美一区二区久久| 欧美日韩国产在线一区| 亚洲欧洲一二三区| 538国产精品一区二区免费视频| 亚洲精品欧美精品日韩精品| 91精品国产综合久久国产大片| 欧美一区二区三区免费在线观看| 日韩免费一级视频| 国产精品免费观看国产网曝瓜| 精品国产一区二| 精品国产一区二区三区四区vr| 久久午夜无玛鲁丝片午夜精品| 亚洲精品www久久久| 国产精品一区在线观看你懂的| 欧美亚洲国产日韩| 午夜av片| 午夜老司机电影| 国产剧情在线观看一区二区| 一级久久久| 精品中文久久| 午夜理伦影院| 日韩中文字幕在线一区| 夜夜躁日日躁狠狠躁| 国产区图片区一区二区三区| 午夜666| 日日狠狠久久8888偷色| 亚洲欧美制服丝腿| 日韩欧美中文字幕一区| 精品国产区| 91久久香蕉| 国产91精品一区二区麻豆亚洲| 国产97在线播放| 午夜社区在线观看| 亚欧精品在线观看| 中文字幕在线一区二区三区| 午夜国内精品a一区二区桃色| 日本精品一二三区| 97人人揉人人捏人人添| 国产午夜精品一区二区三区视频| 午夜片在线| 欧美精品粉嫩高潮一区二区 | 国产1区2| 欧美日韩国产在线一区二区三区| 国产午夜精品一区二区三区欧美| 亚洲影院久久| 右手影院av| 草逼视频网站| 中文字幕欧美另类精品亚洲| 国产一区二区片| 国产高清在线观看一区| 国产精品免费一视频区二区三区| 日韩中文字幕区一区有砖一区| 欧美激情精品久久久久久免费 | 午夜情所理论片| 国产91九色视频| 亚洲欧洲一区二区| 国产一区二区三区国产| **毛片免费| 九色国产精品入口| 欧美一区二区三区激情在线视频| 国产精品精品视频一区二区三区| 国产精品视频久久久久久久| 丰满岳乱妇在线观看中字 | 久久精品国产综合| 视频一区欧美| 国产一区二区三区久久久| 国产伦高清一区二区三区| 日本一区二区三区中文字幕| 国产精品久久久久久久四虎电影| 精品日韩久久久| 午夜电影一区| 天干天干天啪啪夜爽爽99| 狠狠色噜噜狠狠狠888奇米| 狠狠色噜噜狠狠狠狠米奇7777| 狠狠插狠狠干| av午夜剧场| 亚洲一二三四区| 国产精品二区在线| 99久久国产综合精品麻豆| 欧美乱妇在线视频播放| 久久久综合香蕉尹人综合网| 蜜臀久久99精品久久一区二区| 国产精品久久久久久久龚玥菲| 亚洲乱亚洲乱妇28p| 国产白嫩美女在线观看| 日韩av不卡一区| 国产一级片网站| 亚洲一区二区福利视频| 大bbw大bbw超大bbw| 少妇高潮大叫喷水| 国产在线一区二区视频| 久久91精品国产91久久久| 国产精品二十区| 国产午夜精品一区二区三区最新电影 | 国产色午夜婷婷一区二区三区| 欧美日韩一级二级三级| 午夜精品在线播放| 国产91精品一区二区麻豆亚洲| 亚洲精品久久久久中文字幕欢迎你| 国产亚洲精品久久午夜玫瑰园| 秋霞av电影网| 亚洲激情中文字幕| 97人人模人人爽人人喊0| 亚洲一区精品视频| 年轻bbwwbbww高潮| 亚洲制服丝袜在线| 久久天天躁夜夜躁狠狠躁2022| 欧美一区二区三区久久久| 国产二区视频在线播放| 亚洲精品国产主播一区| 狠狠色噜噜狠狠狠狠视频| 一区二区久久久久| 四虎精品寂寞少妇在线观看| 久久精品国产亚洲7777| 国内久久久久久| 国产97在线播放| 国产精品视频久久久久久久 | 欧美一区二区三区艳史| 亚洲高清毛片一区二区| 精品国产一区二| 97久久超碰国产精品红杏| 国产视频一区二区在线播放| 激情久久一区二区三区| 国产精品黑色丝袜的老师|