[發明專利]一種高效IP代理池的實現方法、系統及數據獲取方法在審
| 申請號: | 202010544272.3 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111741141A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 李廣;朱顯申 | 申請(專利權)人: | 重慶幫企科技集團有限公司 |
| 主分類號: | H04L29/12 | 分類號: | H04L29/12;G06F16/955;G06F16/951;G06F9/54 |
| 代理公司: | 重慶強大凱創專利代理事務所(普通合伙) 50217 | 代理人: | 隋金艷 |
| 地址: | 401121 重慶市渝北區龍塔*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 高效 ip 代理 實現 方法 系統 數據 獲取 | ||
1.一種高效IP代理池的實現方法,其特征在于:包括以下內容:
任務構建步驟:讀取待爬取的URL并將待爬取的URL編排成任務加入任務隊列中;
任務執行步驟:采集爬蟲到任務隊列中獲取任務并執行,將獲取到的代理IP存入初始隊列中;
初始校驗步驟:對初始隊列中的代理IP進行校驗,過濾不可用代理IP,并將可用代理IP加入到有效隊列中;
定時校驗步驟:定時從有效隊列中獲取代理IP并存入一個校驗隊列中,并從校驗隊列中獲取代理IP進行校驗,根據校驗結果將代理IP刪除或放回有效隊列中;
代理分配步驟:根據代理IP的校驗結果和客戶端請求,為客戶端分配代理IP。
2.根據權利要求1所述的一種高效IP代理池的實現方法,其特征在于:還包括:
維護判斷步驟:定期檢測有效隊列中的代理IP數量是否小于預設值,若是,則通過任務構建步驟、任務執行步驟和初始校驗步驟爬取新的代理IP加入到有效隊列中。
3.根據權利要求2所述的一種高效IP代理池的實現方法,其特征在于:所述任務執行步驟包括:
獲取任務對應的URL地址;
將URL地址傳遞給下載器,下載器下載數據;
將下載的數據傳遞給數據提取邏輯器,數據提取邏輯器提取代理IP信息;
將提取到的數據保存至數據庫。
4.根據權利要求3所述的一種高效IP代理池的實現方法,其特征在于:所述初始校驗步驟包括:
判斷代理IP是否為匿名代理,若否,則判斷為不可用代理IP并進行過濾;若是,則判斷為可用代理IP并加入到有效隊列中。
5.根據權利要求4所述的一種高效IP代理池的實現方法,其特征在于:所述有效隊列中還存儲有各個代理IP的相關信息,所述相關信息包括請求成功率、響應速度、最近驗證時間和是否匿名。
6.根據權利要求5所述的一種高效IP代理池的實現方法,其特征在于:定時校驗步驟中,對代理IP的請求成功率、是否匿名、響應速度以及最近驗證時間進行校驗。
7.根據權利要求6所述的一種高效IP代理池的實現方法,其特征在于:判斷代理IP是否為匿名代理具體包括:
搭建web驗證服務器;
通過代理IP向驗證服務器發送請求;
根據請求頭判斷是否包含HTTP_X_FORWARDED_FOR且HTTP_X_FORWARDED_FOR為請求設備的真實IP,若是,則判定代理IP為透明代理,若否,則判定代理IP為匿名代理。
8.根據權利要求7所述的一種高效IP代理池的實現方法,其特征在于:所述請求成功率通過計分方式進行校驗,具體包括:
給代理IP一個初始分數,如果請求成功,則對代理IP的分數進行加分;如果請求失敗,則對代理IP的分數進行減分,當代理IP分數小于等于0分,則請求成功率校驗不通過,將代理IP從校驗列表中刪除。
9.一種高效IP代理池的實現系統,其特征在于:采用分布式部署方式進行部署,使用了上述的高效IP代理池的實現方法。
10.一種高效數據獲取方法,其特征在于:包括:
基于如權利要求1-8任一項所述的高效IP代理池實現方法構建IP代理池;
設置客戶端白名單;
爬蟲客戶端使用IP-proxy統一入口請求代理IP出口;
爬蟲客戶端通過代理IP完成數據獲取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶幫企科技集團有限公司,未經重慶幫企科技集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010544272.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種稠油降粘劑、其制備方法及其應用
- 下一篇:一種汽車后懸架裝置分裝臺





