[發明專利]通過對網絡資源調度提高網絡爬蟲抓取效率的方法和裝置有效
| 申請號: | 201610240607.6 | 申請日: | 2016-04-19 |
| 公開(公告)號: | CN105681478B | 公開(公告)日: | 2019-01-22 |
| 發明(設計)人: | 陳俊良;曾琰;屈銀川;黃志杰 | 申請(專利權)人: | 北京高地信息技術有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100055 北京市西城*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 網絡資源 調度 提高 網絡 爬蟲 抓取 效率 方法 裝置 | ||
1.一種通過對網絡資源調度來提高網絡爬蟲抓取效率的方法,其特征在于,包括以下步驟:
從RMI遠程爬蟲客戶端接收請求參數,并進行封裝識別;
把從RMI遠程爬蟲客戶端接收到的請求參數發送到RMI服務器內部邏輯;
對各個網絡線路進行優選,得到暢通的網絡線路;
通過所述暢通的網絡線路,根據需求,進行HTTP網絡資源封裝處理,得到封裝好的網絡資源;
通過RMI遠程接口把所述封裝好的網絡資源發送給所述RMI遠程爬蟲客戶端的請求端;
所述RMI遠程爬蟲客戶端通過其請求端接收所述封裝好的網絡資源后,對網絡線路和HTTP請求進行設置,并進行數據的爬取和解析。
2.根據權利要求1所述的一種通過對網絡資源調度來提高網絡爬蟲抓取效率的方法,其特征在于,所述對各個網絡線路進行優選,得到暢通的網絡線路包括根據當前的爬蟲調用復雜情況、網絡線路的帶寬、各網絡線路的封鎖情況,綜合優選出負載小、延遲低、帶寬寬且未被封鎖的線路作為所述暢通的網絡線路。
3.根據權利要求1所述的一種通過對網絡資源調度來提高網絡爬蟲抓取效率的方法,其特征在于,當所述RMI遠程爬蟲客戶端需要使用代理服務器時,在把從RMI遠程爬蟲客戶端接收到的請求參數發送到RMI服務器內部邏輯的步驟和對各個網絡線路進行優選,得到暢通的網絡線路之間,還包括有效代理服務器調度的步驟。
4.根據權利要求3所述的一種通過對網絡資源調度來提高網絡爬蟲抓取效率的方法,其特征在于,所述對各個網絡線路進行優選,得到暢通的網絡線路包括選擇網絡延遲低、速度最快的網絡線路作為暢通的網絡線路。
5.根據權利要求1所述的一種通過對網絡資源調度來提高網絡爬蟲抓取效率的方法,其特征在于,當所有網絡線路都被目標網站封鎖時,所述對各個網絡線路進行優選,得到暢通的網絡線路包括通過軟路由直接控制,重播所有網絡線路獲取另外的公網IP,直至能夠選擇暢通的線路為止,作為暢通的網絡線路。
6.一種通過對網絡資源調度提高網絡爬蟲抓取效率的裝置,其特征在于,包括RMI遠程爬蟲客戶端請求接收端口、參數發送單元、選擇單元、HTTP網絡資源封裝處理單元、網絡資源發送端口、設置單元、數據爬取和解析單元;
所述RMI遠程爬蟲客戶端請求接收端口用于從RMI遠程爬蟲客戶端接收請求參數,并進行封裝識別;
所述參數發送單元用于把從RMI遠程爬蟲客戶端接收到的請求參數發送到RMI服務器內部邏輯;
所述選擇單元用于對各個網絡線路進行優選,得到暢通的網絡線路;
所述HTTP網絡資源封裝處理單元通過所述暢通的網絡線路,根據需求,進行HTTP網絡資源封裝處理,得到封裝好的網絡資源;
所述網絡資源發送端口用于通過RMI遠程接口把所述封裝好的網絡資源發送給所述RMI遠程爬蟲客戶端的請求端;
所述RMI遠程爬蟲客戶端通過其請求端接收所述封裝好的網絡資源后,通過所述設置單元對網絡線路和HTTP請求進行設置,并通過所述數據爬取和解析單元進行數據的爬取和解析。
7.根據權利要求6所述的一種通過對網絡資源調度提高網絡爬蟲抓取效率的裝置,其特征在于,還包括統計單元,所述統計單元用于根據當前的爬蟲調用負載情況、網絡線路的帶寬、各網絡線路的封鎖情況,綜合優選出負載小、延遲低、帶寬寬且未被封鎖的線路作為所述暢通的網絡線路。
8.根據權利要求6所述的一種通過對網絡資源調度提高網絡爬蟲抓取效率的裝置,其特征在于,還包括判斷單元,所述判斷單元用于判斷當所述RMI遠程爬蟲客戶端是否需要使用代理服務器,當所述RMI遠程爬蟲客戶端需要使用代理服務器時,在把從RMI遠程爬蟲客戶端接收到的請求參數發送到RMI服務器內部邏輯的步驟和對各個網絡線路進行優選,得到暢通的網絡線路之間,還包括有效代理服務器調度的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京高地信息技術有限公司,未經北京高地信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610240607.6/1.html,轉載請聲明來源鉆瓜專利網。





