[發明專利]通過對網絡資源調度提高網絡爬蟲抓取效率的方法和裝置有效
| 申請號: | 201610240607.6 | 申請日: | 2016-04-19 |
| 公開(公告)號: | CN105681478B | 公開(公告)日: | 2019-01-22 |
| 發明(設計)人: | 陳俊良;曾琰;屈銀川;黃志杰 | 申請(專利權)人: | 北京高地信息技術有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100055 北京市西城*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 網絡資源 調度 提高 網絡 爬蟲 抓取 效率 方法 裝置 | ||
公開了通過對網絡資源調度提高網絡爬蟲抓取效率的方法和裝置。其通過從RMI遠程爬蟲客戶端接收請求參數,并進行封裝識別;把從RMI遠程爬蟲客戶端接收到的請求參數發送到RMI服務器內部邏輯;對各個網絡線路進行優選,得到暢通的網絡線路;通過暢通的網絡線路,根據需求,進行HTTP網絡資源封裝處理,得到封裝好的網絡資源;通過RMI遠程接口把封裝好的網絡資源發送給RMI遠程爬蟲客戶端的請求端;RMI遠程爬蟲客戶端通過其請求端接收封裝好的網絡資源后,對網絡線路和HTTP請求進行設置,并進行數據的爬取和解析。其能夠使爬蟲數據的抓取效率提高,不需要人工干預。實現網絡線路的負載均衡,并自動識別目標網站的封鎖、線路優選和HTTP請求參數的設置來自動解除封鎖。
技術領域
本發明涉及計算機網絡技術領域,特別是涉及一種通過對網絡資源調度提高網絡爬蟲抓取效率的方法和裝置。
背景技術
因為搜索引擎的流行,網絡爬蟲已經成了很普及網絡技術,除了專門做搜索的Google,Yahoo,微軟必應,百度等等,幾乎每個大型門戶網站都有自己的搜索引擎,現在的爬蟲工具特別多,已知的開源爬蟲框架就有幾十種不等。一般來說,企業級別的網絡爬蟲一般是部署在集群上面,通過不同的網絡線路出口,并行地從互聯網上下載所需的信息。
各個網站為了保護自己的網站不被惡意攻擊,都會有自己的請求和響應策略。一般來說,目標網站則根據訪問頻率,瀏覽網頁速度,cookies等因素來封鎖線路,同時也會根據賬戶登錄狀態,輸入驗證碼是否正確,Flash封裝,Ajax混淆,JS加密,圖片驗證,CSS混淆等技術來保護自己的網站。然而這樣一些因素會導致爬蟲不能正常爬取。其中,最主要的因素就是網絡線路的封鎖,很多目標網站會對在一段時間頻繁請求的爬蟲采取完全封鎖的策略。這樣便誤封鎖了一部分爬蟲的正常爬取。人工的監控成本也很大,不知道線路何時被封鎖了,何時被解封,以至于不能迅速反應。而數據的抓取是一個長期連續的過程,如不能及時地應對目標網站的封鎖策略,并立即采取應對策略,那么爬蟲的抓取質量和效率則是很低的。
發明內容
有鑒于此,本發明提供一種通過對網絡資源調度提高網絡爬蟲抓取效率的方法和裝置,其能夠使爬蟲數據的抓取效率大大提高,并且不需要人工干預。實現網絡線路的負載均衡,并自動識別目標網站的封鎖、線路優選和HTTP請求參數的設置來自動解除封鎖,從而更加適于實用。
為了達到上述第一個目的,本發明提供的一種通過對網絡資源調度來提高網絡爬蟲抓取效率的方法技術方案如下:
本發明提供的通過網絡爬蟲抓取網絡數據的方法包括以下步驟:
從RMI遠程爬蟲客戶端接收請求參數,并進行封裝識別;
把從RMI遠程爬蟲客戶端接收到的請求參數發送到RMI服務器內部邏輯;
對各個網絡線路進行優選,得到暢通的網絡線路;
通過所述暢通的網絡線路,根據需求,進行HTTP網絡資源封裝處理,得到封裝好的網絡資源;
通過RMI遠程接口把所述封裝好的網絡資源發送給所述RMI遠程爬蟲客戶端的請求端;
所述RMI遠程爬蟲客戶端通過其請求端接收所述封裝好的網絡資源后,對網絡線路和HTTP請求進行設置,并進行數據的爬取和解析。
本發明提供的一種通過對網絡資源調度提高網絡爬蟲抓取效率的方法和裝置還可采用以下技術措施進一步實現。
作為優選,所述對各個網絡線路進行優選,得到暢通的網絡線路包括根據當前的爬蟲調用復雜情況、網絡線路的帶寬、各網絡線路的封鎖情況,綜合優選出負載小、延遲低、帶寬寬且未被封鎖的線路作為所述暢通的網絡線路。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京高地信息技術有限公司,未經北京高地信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610240607.6/2.html,轉載請聲明來源鉆瓜專利網。





