日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]網頁數據的下載方法及裝置有效

專利信息
申請號: 201410827793.4 申請日: 2014-12-25
公開(公告)號: CN104572901B 公開(公告)日: 2018-12-18
發明(設計)人: 于勝軍;馬哲;譚國斌 申請(專利權)人: 小米科技有限責任公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京三高永信知識產權代理有限責任公司 11138 代理人: 祝亞男
地址: 100085 北京市海淀區清*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 網頁 數據 下載 方法 裝置
【說明書】:

本公開是關于一種網頁數據的下載方法及裝置,屬于互聯網技術領域。所述方法包括:獲取待抓取網頁數據的一級網址;從一級網址的網頁數據中,提取多個二級網址,一級網址的網頁數據中包含多個二級網址及干擾數據;將多個二級網址加入第一消息隊列;基于第一消息隊列,下載二級網址對應的網頁數據。本公開在獲取到待抓取網頁數據的一級網址后,從一級網址的網頁數據中,提取多個二級網址,并將多個二級網址加入第一消息隊列,進而基于第一消息隊列,下載二級網址對應的網頁數據。由于借助消息隊列下載網頁數據,無需獲知地址端口等配置信息,基于消息隊列中存儲的二級網址下載,因此,降低了資源消耗,簡化了下載的復雜度。

技術領域

本公開涉及互聯網技術領域,尤其涉及一種網頁數據的下載方法及裝置。

背景技術

隨著互聯網技術的發展,互聯網上的數據爆炸性增長。傳統的單機網絡爬蟲系統因獲取網頁數據的速度較慢、準確性較低,很難適應大規模的網頁數據獲取需求。為了提高獲取速度以及準確性,分布式網絡爬蟲系統應運而生。分布式網絡爬蟲系統作為一種新的數據獲取系統,具有單機網絡爬蟲系統無法比擬的數據采集速度和規模,可快速地為抓取到更多的網頁數據。

分布式網絡爬蟲系統由調度器和多個下載器組成,其中,調度器負責為各個下載器分配待下載網址,下載器用于根據待下載網址從互聯網上下載網頁數據。在分布式網絡爬蟲系統中,調度器和下載器間采用RPC(Remote Procedure Call,遠程過程調度)協議進行通信。基于分布式網絡爬蟲系統,相關技術在下載網頁數據時,調度器和下載器需要先獲知彼此的地址端口等配置信息,然后調度器根據待下載網址的數量,確定為各個下載器分配的待下載網址,進而通過各個下載器的地址端口將待下載地址發送至各個下載器,基于接收到的下載網址,下載器就可從互聯網上下載網頁數據。

發明內容

為克服相關技術中存在的問題,本公開提供一種網頁數據的下載方法及裝置。

根據本公開實施例的第一方面,提供一種網頁數據的下載方法,該方法包括:

獲取待抓取網頁數據的一級網址;

從所述一級網址的網頁數據中,提取多個二級網址,所述一級網址的網頁數據中包含多個二級網址及干擾數據;

將所述多個二級網址加入第一消息隊列;

基于所述第一消息隊列,下載二級網址對應的網頁數據。

結合第一方面,在第一方面的第一種可能的實現方式中,所述基于所述第一消息隊列,下載二級網址對應的網頁數據,包括:

根據所述第一消息隊列中的二級網址數量及各個下載實例的屬性信息,為各個下載實例分配二級網址,所述屬性信息包括下載實例的數量及下載實例的下載狀態;

基于分配的二級網址,通過各個下載實例下載二級網址對應的網頁數據。

結合第一方面的第一種可能的實現方式,在第一方面的第二種可能的實現方式中,所述根據所述第一消息隊列中的二級網址數量及各個下載實例的屬性信息,為各個下載實例分配二級網址,包括:

根據所述第一消息隊列中的二級網址數量及下載實例的數量,將所述第一消息隊列中的二級網址平均分配給各個下載實例;或,

根據各個下載實例的下載狀態,確定各個下載實例的下載優先級,按照各個下載實例的下載優先級,將所述第一消息隊列中的二級網址,分配給各個下載實例。

結合第一方面,在第一方面的第三種可能的實現方式中,所述基于所述第一消息隊列,下載二級網址對應的網頁數據之后,還包括:

將下載得到的網頁數據加入第二消息隊列;

從所述第二消息隊列中,獲取下載得到的網頁數據;

從所述下載得到的網頁數據中,提取指定數據;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于小米科技有限責任公司,未經小米科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201410827793.4/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品久久国产三级国电话系列| 蜜臀久久99静品久久久久久| 日韩一级免费视频| 精品videossexfreeohdbbw| 99热久久这里只精品国产www| 国产视频一区二区不卡| 91免费看国产| 欧美色综合天天久久综合精品| 国产一区2| 久久国产精品精品国产| 国内久久久| 精品一区中文字幕| 欧美精品第一区| 91久久香蕉国产日韩欧美9色| 精品国产乱码久久久久久软件影片| **毛片免费| 欧美乱码精品一区二区| 精品国产一区二区三区麻豆免费观看完整版 | 国产一区在线视频观看| 99精品欧美一区二区| 国产亚洲精品久久久久久久久动漫| 亚洲欧美国产日韩综合| 日韩中文字幕在线一区二区| 日韩午夜一区| 国产理论一区| 日韩av片无码一区二区不卡电影| 久久国产精品精品国产| 国产女人和拘做受视频免费| 男人的天堂一区二区| 久久国产欧美日韩精品| 狠狠躁狠狠躁视频专区| 狠狠色成色综合网| 日韩亚洲精品在线观看| 午夜影皖精品av在线播放| 欧美日韩一区二区三区四区五区六区 | 国产乱了高清露脸对白| 2020国产精品自拍| 国产一区二区三区大片| 日韩av免费电影| 一区二区三区欧美在线| 亚洲乱亚洲乱妇28p| 日韩av中文字幕第一页| 国产精品国产三级国产专区51区 | 国产亚洲精品久久久456| 午夜一区二区三区在线观看| 日韩av中文字幕在线| 亚洲精品少妇一区二区| 日韩精品中文字幕一区二区三区| 精品91av| 久久久人成影片免费观看| 国产精品日韩电影| 一本色道久久综合亚洲精品浪潮| 午夜激情看片| 日韩欧美中文字幕一区| 亚洲精品少妇一区二区| 国产1区2区视频| 羞羞视频网站免费| 国产一区二区麻豆| 久久综合国产精品| 少妇精品久久久久www蜜月| 国产精品久久久久久久久久软件| 日韩欧美国产另类| 538国产精品一区二区免费视频| 性精品18videosex欧美| 午夜看片在线| 亚洲精品一区,精品二区| 日韩免费一级视频| 99久久婷婷国产亚洲终合精品| 午夜影皖精品av在线播放| 狠狠色噜噜狠狠狠狠777| 亚洲午夜精品一区二区三区| 久99精品| 国产一区二区免费电影| 欧美日韩一区二区三区在线观看视频 | 国产欧美视频一区二区三区| 亚洲自拍偷拍中文字幕| 香蕉视频一区二区三区| 国内少妇偷人精品视频免费| 欧美激情精品久久久久久免费 | 年轻bbwwbbww高潮| 欧美国产精品久久| 日韩av在线影视|