[發(fā)明專利]一種高效IP代理池的實現(xiàn)方法、系統(tǒng)及數(shù)據(jù)獲取方法在審
| 申請?zhí)枺?/td> | 202010544272.3 | 申請日: | 2020-06-15 |
| 公開(公告)號: | CN111741141A | 公開(公告)日: | 2020-10-02 |
| 發(fā)明(設(shè)計)人: | 李廣;朱顯申 | 申請(專利權(quán))人: | 重慶幫企科技集團有限公司 |
| 主分類號: | H04L29/12 | 分類號: | H04L29/12;G06F16/955;G06F16/951;G06F9/54 |
| 代理公司: | 重慶強大凱創(chuàng)專利代理事務(wù)所(普通合伙) 50217 | 代理人: | 隋金艷 |
| 地址: | 401121 重慶市渝北區(qū)龍塔*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 高效 ip 代理 實現(xiàn) 方法 系統(tǒng) 數(shù)據(jù) 獲取 | ||
本發(fā)明涉及IP代理技術(shù)領(lǐng)域,具體為一種高效IP代理池的實現(xiàn)方法、系統(tǒng)及數(shù)據(jù)獲取方法,高效IP代理池的實現(xiàn)方法,包括:讀取待爬取的URL并將待爬取的URL編排成任務(wù)加入任務(wù)隊列中;采集爬蟲到任務(wù)隊列中獲取任務(wù)并執(zhí)行,將獲取到的代理IP存入初始隊列中;對初始隊列中的代理IP進行校驗,過濾不可用代理IP,并將可用代理IP加入到有效隊列中;定時從有效隊列中獲取代理IP并存入一個校驗隊列中,并從校驗隊列中獲取代理IP進行校驗,根據(jù)校驗結(jié)果將代理IP刪除或放回有效隊列中;根據(jù)客戶端請求,為客戶端分配代理IP。本申請的一種高效IP代理池的實現(xiàn)方法、系統(tǒng)及數(shù)據(jù)獲取方法,能夠解決現(xiàn)有IP代理池內(nèi)的代理IP存在的有效性、穩(wěn)定性差的問題。
技術(shù)領(lǐng)域
本發(fā)明涉及IP代理技術(shù)領(lǐng)域,具體為一種高效IP代理池的實現(xiàn)方法、系統(tǒng)及數(shù)據(jù)獲取方法。
背景技術(shù)
近年來,隨著互聯(lián)網(wǎng)業(yè)務(wù)的高速發(fā)展,數(shù)據(jù)采集需求日益增加。傳統(tǒng)的固定IP代理的爬蟲方式無法滿足大數(shù)據(jù)時代數(shù)據(jù)的需求。同時,固定IP代理方式在技術(shù)上存在諸多不足。固定IP采集頻繁訪問網(wǎng)站,采集大量數(shù)據(jù)容易造成IP的封鎖。
當前解決這個問題的方式主要有兩種,一是限制IP訪問網(wǎng)站的頻率;二是設(shè)置IP代理地址池,動態(tài)的調(diào)度代理IP。
采用動態(tài)代理IP的方式可以改善固定IP采集數(shù)據(jù)的不足。然而現(xiàn)行的技術(shù),缺乏一種動態(tài)IP代理管理機制,存在IP代理池的規(guī)模無法達到理想狀態(tài),IP代理池內(nèi)代理IP的有效性差等問題,無法保證代理IP的高效、穩(wěn)定與可靠。
發(fā)明內(nèi)容
本發(fā)明意在提供一種高效IP代理池的實現(xiàn)方法、系統(tǒng)及數(shù)據(jù)獲取方法,能夠解決現(xiàn)有技術(shù)IP代理池內(nèi)的代理IP存在的有效性、穩(wěn)定性差的問題。
本申請?zhí)峁┤缦录夹g(shù)方案:
一種高效IP代理池的實現(xiàn)方法,包括以下內(nèi)容:
任務(wù)構(gòu)建步驟:讀取待爬取的URL并將待爬取的URL編排成任務(wù)加入任務(wù)隊列中;
任務(wù)執(zhí)行步驟:采集爬蟲到任務(wù)隊列中獲取任務(wù)并執(zhí)行,將獲取到的代理IP存入初始隊列中;
初始校驗步驟:對初始隊列中的代理IP進行校驗,過濾不可用代理IP,并將可用代理IP加入到有效隊列中;
定時校驗步驟:定時從有效隊列中獲取代理IP并存入一個校驗隊列中,并從校驗隊列中獲取代理IP進行校驗,根據(jù)校驗結(jié)果將代理IP刪除或放回有效隊列中;
代理分配步驟:根據(jù)代理IP的校驗結(jié)果和客戶端請求,為客戶端分配代理IP。
本發(fā)明技術(shù)方案中,通過初始校驗步驟,可以對代理IP進行初步的檢測,排除不可用代理IP,進而確保剩下的IP的有效性,通過定時校驗步驟,對有效隊列中的IP也進行隨機性的檢測,確保有效隊列中的代理IP都是有效的,通過將代理IP放入校驗隊列,避免其被使用而影響測試結(jié)果,確保檢測公平,保證檢測結(jié)果的準確。通過兩次檢測方式,確保代理IP的有效性,解決現(xiàn)有技術(shù)IP代理池內(nèi)的代理IP存在的有效性、穩(wěn)定性差的問題。
進一步,還包括:
維護判斷步驟:定期檢測有效隊列中的代理IP數(shù)量是否小于預(yù)設(shè)值,若是,則掃描爬取新的代理IP加入到有效隊列中。
進一步,所述任務(wù)執(zhí)行步驟包括:
獲取任務(wù)對應(yīng)的URL地址;
將URL地址傳遞給下載器,下載器下載數(shù)據(jù);
將下載的數(shù)據(jù)傳遞給數(shù)據(jù)提取邏輯器,數(shù)據(jù)提取邏輯器提取代理IP信息;
將提取到的數(shù)據(jù)保存至數(shù)據(jù)庫。
進一步,所述初始校驗步驟包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶幫企科技集團有限公司,未經(jīng)重慶幫企科技集團有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010544272.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 互聯(lián)網(wǎng)協(xié)議電話系統(tǒng)及其方法
- 虛擬機的IP地址的劃分方法
- 使非IP設(shè)備接入虛擬IP網(wǎng)絡(luò)的方法和系統(tǒng)
- CC通道檢測方法
- 一種IP地址評估方法及裝置
- 一種調(diào)度軟交換IP話機故障檢測報警系統(tǒng)
- 一種網(wǎng)絡(luò)攻擊的IP地址分析方法、裝置和存儲介質(zhì)
- 靜態(tài)IP與動態(tài)IP的沖突檢測方法、系統(tǒng)、終端及存儲介質(zhì)
- IP地址段查找方法與業(yè)務(wù)調(diào)度方法、裝置、電子設(shè)備
- 一種IP檢測的方法、裝置、設(shè)備及存儲介質(zhì)
- 互動業(yè)務(wù)終端、實現(xiàn)系統(tǒng)及實現(xiàn)方法
- 街景地圖的實現(xiàn)方法和實現(xiàn)系統(tǒng)
- 游戲?qū)崿F(xiàn)系統(tǒng)和游戲?qū)崿F(xiàn)方法
- 圖像實現(xiàn)裝置及其圖像實現(xiàn)方法
- 增強現(xiàn)實的實現(xiàn)方法以及實現(xiàn)裝置
- 軟件架構(gòu)的實現(xiàn)方法和實現(xiàn)平臺
- 數(shù)值預(yù)報的實現(xiàn)方法及實現(xiàn)系統(tǒng)
- 空調(diào)及其冬眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 空調(diào)及其睡眠控制模式實現(xiàn)方法和實現(xiàn)裝置以及實現(xiàn)系統(tǒng)
- 輸入設(shè)備實現(xiàn)方法及其實現(xiàn)裝置





