[發(fā)明專利]一種基于連接代理優(yōu)化管理的多線程網(wǎng)絡(luò)爬蟲處理方法有效
| 申請?zhí)枺?/td> | 201410146375.9 | 申請日: | 2014-04-11 |
| 公開(公告)號: | CN103902386B | 公開(公告)日: | 2017-05-10 |
| 發(fā)明(設(shè)計(jì))人: | 羅邦慧;曾劍平 | 申請(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F17/30;H04L29/08 |
| 代理公司: | 上海正旦專利代理有限公司31200 | 代理人: | 陸飛,王潔平 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 連接 代理 優(yōu)化 管理 多線程 網(wǎng)絡(luò) 爬蟲 處理 方法 | ||
1.一種基于連接代理優(yōu)化管理的多線程網(wǎng)絡(luò)爬蟲處理方法,其特征在于具體步驟為,首先獲取網(wǎng)絡(luò)上公開代理服務(wù)器,測試代理服務(wù)器的網(wǎng)絡(luò)連接性能,并根據(jù)代理服務(wù)器性能得到最優(yōu)的線程數(shù)量;然后對代理服務(wù)器池進(jìn)行管理,并為每一個 Http 請求設(shè)置一個有效代理服務(wù)器;最終執(zhí)行Web頁面訪問請求;其中:
線程數(shù)量M根據(jù)代理服務(wù)器池中的代理服務(wù)器性能確定,其計(jì)算公式如下:
這里, 為代理服務(wù)器的失敗率,v 為爬取速度, 為代理服務(wù)器池中代理服務(wù)器的響應(yīng)時間期望值;
對代理服務(wù)器池進(jìn)行管理,并為每一個 Http 請求設(shè)置一個有效代理服務(wù)器時,把代理服務(wù)器的失敗率和 響應(yīng)時間作為鑒別一個代理是否有效的標(biāo)準(zhǔn);隔段時間以后,再次嘗試使用之前被判斷為不能使用的代理,從而把無效的代理服務(wù)器池中可用的代理放入有效的代理服務(wù)器池中;代理任務(wù)分配時,為每個線程獲取有效的代理服務(wù)器池中使用次數(shù)最少的代理,以均衡地把任務(wù)分配給每一個代理;其中:無效代理如下定義:
計(jì)算在最近使用的一個時間窗口 W 內(nèi),當(dāng)同時滿足以下條件 i 和 ii 或者條件 i 和 iii 時,則此代理被視為無效;
i.usedTimes>Min_Used_Times;
ii.failedRate>Failure_Rate;
iii.responseTime< Max_Response_Time,其中:
usedTimes 為在 W 內(nèi)代理服務(wù)器被使用的次數(shù),Min_Used_Times為設(shè)定的代理服務(wù)器最少被使用的次數(shù),failedRate 為時間窗口 W 內(nèi)該代理的失敗率,F(xiàn)ailure_Rate 為可以接受的代理服務(wù)器的失敗率,responseTime 為在時間窗口W 內(nèi)的平均響應(yīng)時間,Max_Response_Time為可以接受的代理服務(wù)器的最長響應(yīng)時間。
2.根據(jù)權(quán)利要求1所述的基于連接代理優(yōu)化管理的多線程網(wǎng)絡(luò)爬蟲處理方法,其特征在于:采用最小使用次數(shù)優(yōu)先隊(duì)列實(shí)現(xiàn)代理任務(wù)分配。
3.據(jù)權(quán)利要求1所述的基于連接代理優(yōu)化管理的多線程網(wǎng)絡(luò)爬蟲處理方法,其特征在于:所述代理服務(wù)器的響應(yīng)時間期望值的計(jì)算公式如下:
其中, 為第 i 個代理服務(wù)器的響應(yīng)時間, N 為代理服務(wù)器個數(shù)。
4.根據(jù)權(quán)利要求1所述的基于連接代理優(yōu)化管理的多線程網(wǎng)絡(luò)爬蟲處理方法,其特征在于:所述代理服務(wù)器的失敗率 根據(jù)代理服務(wù)器狀態(tài)隊(duì)列、代理服務(wù)器在時間窗口 w 內(nèi)的失敗次數(shù)計(jì)算,其計(jì)算公式如下:
其中,failedTimes 為連接執(zhí)行期間代理服務(wù)器的失敗次數(shù),usedTimes 為代理服務(wù)器的使用次數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410146375.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種全自動注水機(jī)構(gòu)
- 下一篇:一種整體鍛造的雙閘板電站閘閥





