日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]網絡爬取方法和裝置在審

專利信息
申請?zhí)枺?/td> 201710571635.0 申請日: 2017-07-13
公開(公告)號: CN107423382A 公開(公告)日: 2017-12-01
發(fā)明(設計)人: 羅秋科;林強;張楠;李健華;賈建華;杜景榮;于穎 申請(專利權)人: 中國物品編碼中心
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京同立鈞成知識產權代理有限公司11205 代理人: 楊澤,劉芳
地址: 100029 北京市東城區(qū)安*** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 網絡 方法 裝置
【說明書】:

技術領域

發(fā)明涉及通信技術,尤其涉及一種網絡爬取方法和裝置。

背景技術

隨著網絡資源的不斷豐富,越來越多的平臺需要大量的數據支撐才能完成相應的功能。通常獲取數據資源的渠道包括:通過托管平臺登錄后獲得數據、直接連接其他系統(tǒng)的數據庫以及采用數據接口的方式進行數據對接。但這些渠道或多或少會出現無法獲取相關數據、成本較高的問題。因此,目前采用網絡爬取技術對網頁上的數據進行爬取,以便于平臺尋找到網頁和相關數據。

由于curl(CommandLine Uniform Resource Locator)函數支持GET、POST等瀏覽器行為,能夠達到一個模擬瀏覽器操作的目的,因此,在現有網絡爬取方法中,通常使用RCurl程序包中的curl函數完成網頁數據的抓取過程,進而獲取網頁上的數據。然而,僅采用curl函數的現有網絡爬取方法curl無法完成數據量較大的爬取任務。因此,亟需一種能夠爬取大量數據的網絡爬取方法。

發(fā)明內容

本發(fā)明提供一種網絡爬取方法和裝置,以以解決現有的網絡爬取方法無法完成數量量較大的爬取任務的問題。

第一方面,本發(fā)明提供一種網絡爬取方法,應用于網絡爬取系統(tǒng),所述網絡爬取系統(tǒng)包括:一個主節(jié)點和多個子節(jié)點,針對任一子節(jié)點,所述方法包括:

所述子節(jié)點接收所述主節(jié)點發(fā)送的子任務,所述子任務中包括爬取任務的任務類型以及所述子節(jié)點對應的搜索組中的網站地址,所述搜索組中包括至少一個網站地址,所述搜索組是所述主節(jié)點根據分布式編程框架map-reduce和所述爬取任務的任務類型,對所述至少一個網站地址進行劃分得到的;

所述子節(jié)點根據所述子任務進行爬取,將得到的爬取數據存儲到本地存儲器中;

所述子節(jié)點在所述本地存儲器中進行查詢,得到查詢結果,并向所述主節(jié)點發(fā)送所述查詢結果。

可選地,所述子節(jié)點根據所述子任務進行爬取,所述將得到的爬取數據存儲到本地存儲器中,包括:

所述子節(jié)點對所述子任務中的網站地址進行遍歷連接,得到連接成功的第一網站地址和連接失敗的第二網站地址;

所述子節(jié)點獲取所述第一網站地址中待爬取的網頁數據頁對應的鏈接;

所述子節(jié)點對所述第一網站地址中各所述待爬取的網頁數據頁對應的鏈接進行遍歷連接,得到連接成功的第一鏈接和連接失敗的第二鏈接;

所述子節(jié)點根據所述爬取任務的任務類型,對所述第一鏈接對應的各所述網頁數據進行過濾處理,得到所述第一鏈接對應的網頁數據;

所述子節(jié)點對所述第一鏈接對應的網頁數據進行解析,得到目標爬取數據;

所述子節(jié)點將所述目標爬取數據以及對應的第一鏈接存儲到所述本地存儲器中。

可選地,所述方法還包括:

所述子節(jié)點重新連接所述第二鏈接,并判斷所述子節(jié)點是否與所述第二鏈接連接成功;

若是,則所述子節(jié)點根據所述爬取任務的任務類型,對所述第二鏈接對應的各所述網頁數據進行過濾處理,得到所述第二鏈接對應的網頁數據,并對所述第二鏈接對應的網頁數據進行解析,得到所述目標爬取數據,并將所述目標爬取數據以及對應的第二鏈接存儲到所述本地存儲器中;

若否,重復執(zhí)行連接所述第二鏈接,并判斷所述子節(jié)點是否與所述第二鏈接連接成功的操作,若在重復連接的次數超過第一預設次數時,則所述子節(jié)點將所述第二鏈接存儲到所述本地存儲器中。

可選地,所述方法還包括:

所述子節(jié)點重新連接所述第二網站地址,并判斷所述子節(jié)點是否與所述第二網站地址連接成功;

若是,所述子節(jié)點獲取所述第二網站地址中待爬取的網頁數據頁對應的鏈接;

所述子節(jié)點對所述第二網站地址中各所述待爬取的網頁數據頁對應的鏈接進行遍歷連接,得到連接成功的第三鏈接和連接失敗的第四鏈接;

所述子節(jié)點根據所述爬取任務的任務類型,對所述第三鏈接對應的各所述網頁數據進行過濾處理,得到所述第三鏈接對應的網頁數據;

所述子節(jié)點對所述第三鏈接對應的網頁數據進行解析,得到所述目標抓取數據;

所述子節(jié)點將所述目標爬取數據以及對應的第三鏈接存儲到所述本地存儲器中;

若否,重復執(zhí)行連接所述第二網站地址,并判斷所述子節(jié)點是否與所述第二網站地址連接成功的操作,若在重復連接的次數超過第二預設次數時,則所述子節(jié)點將所述第二網站地址存儲到所述本地存儲器中。

可選地,所述方法還包括:

所述子節(jié)點重新連接所述第四鏈接,并判斷所述子節(jié)點是否與所述第四鏈接連接成功;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國物品編碼中心,未經中國物品編碼中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201710571635.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發(fā)明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業(yè)標識 聯(lián)系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 亚洲精品97久久久babes| 免费精品一区二区三区第35| 麻豆91在线| 91精品国产影片一区二区三区| 国产69精品久久99不卡免费版| 欧美乱妇在线观看| 满春阁精品av在线导航| 91视频国产一区| 久久久一二区| 久久精品综合视频| 精品一区二区三区影院| 7777久久久国产精品| 性欧美精品动漫| 韩日av一区二区三区| 日韩欧美一区二区在线视频| 久久er精品视频| 亚洲激情中文字幕| 日本黄页在线观看| 午夜老司机电影| 4399午夜理伦免费播放大全| 99精品视频一区二区| 2020国产精品自拍| 91视频国产九色| 91麻豆精品国产91久久| 91精品啪在线观看国产| 国产精品久久久不卡| 国产精品视频久久久久久| 国产一区二区三区在线电影| 午夜社区在线观看| 午夜免费网址| 日本xxxxxxxxx68护士| 欧美一区二区三区激情视频| 亚洲欧美国产中文字幕| 欧美日韩激情一区二区| 精品国产一区二区三区忘忧草| 久久久久久久国产精品视频| 国产精品午夜一区二区| 国产精品视频免费一区二区| 国产欧美视频一区二区| 99久久精品国产国产毛片小说| 亚洲精品日韩色噜噜久久五月| 国产aⅴ精品久久久久久| 国产极品美女高潮无套久久久| 国产一级片网站| 国产日韩欧美一区二区在线观看| 精品综合久久久久| 伊人av中文av狼人av| 日韩av在线网址| 亚洲欧美日本一区二区三区| 精品一区二区在线视频| 欧美日韩一级在线观看| 欧美日韩一卡二卡| 久久69视频| 亚洲精品国产久| 窝窝午夜精品一区二区| 综合色婷婷一区二区亚洲欧美国产| 国产无遮挡又黄又爽又色视频 | 日本白嫩的18sex少妇hd| 91精品国产91热久久久做人人| 午夜影院毛片| 亚洲自偷精品视频自拍| 欧美一区二区综合| 狠狠色狠狠色88综合日日91| 国产精品久久久久久久岛一牛影视| 午夜性电影| 国产一区日韩欧美| 国产一区精品在线观看| 少妇bbwbbwbbw高潮| 国产精品理人伦一区二区三区| 91精品高清| 午夜影院一区| 免费观看黄色毛片| 亚洲一二三四区| 国产精品视频一区二区三| 国产日韩精品一区二区| 日韩一级在线视频| 日本少妇高潮xxxxⅹ| 国产精品视频二区不卡| 国产乱对白刺激视频在线观看| 国产高清一区在线观看| 国久久久久久| 日韩午夜毛片| 日本一区二区免费电影| 国产日韩一二三区| 午夜天堂电影| 黑人巨大精品欧美黑寡妇| 国产高清不卡一区| 97精品国产97久久久久久| 国产乱对白刺激视频在线观看| 午夜av片| 亚洲二区在线播放视频| 免费**毛片| 国产精品99在线播放| freexxxx性| 欧美一区二区三区日本| 久爱视频精品| 中文字幕亚洲欧美日韩在线不卡| 国模吧一区二区| а√天堂8资源中文在线| 午夜wwww| 蜜臀久久久久久999| 欧美精品一区二区三区视频| 欧美日韩久久一区| 国产91高清| 羞羞免费视频网站| 欧美视频1区| 99热一区二区| 午夜欧美影院| 中文字幕制服狠久久日韩二区| 91人人爽人人爽人人精88v| 香港三日本三级三级三级| 国产一区日韩精品| 久久精品综合视频| 欧美一区二区三区四区五区六区| 亚洲久久在线| 亚洲制服丝袜在线| 99国产精品免费| 又黄又爽又刺激久久久久亚洲精品 | 午夜影院伦理片| 亚洲天堂国产精品| 国产色99| 中文字幕一区2区3区| 国产美女视频一区二区三区| 99re6国产露脸精品视频网站| 亚洲午夜精品一区二区三区| 精品久久久久99| 999亚洲国产精| 国产一区在线视频观看| 午夜影院91| 99热久久精品免费精品| 最新国产一区二区| 99久久国产免费,99久久国产免费大片| 久久99精品国产99久久6男男 | 亚洲福利视频二区| 视频一区二区三区中文字幕| 国产电影精品一区| 日韩欧美国产另类| 国产99久久久久久免费看| 午夜叫声理论片人人影院| 国产一区二区三区小说 | 亚洲欧美日本一区二区三区 | 欧美大成色www永久网站婷| 91精品啪在线观看国产线免费| 久久久午夜爽爽一区二区三区三州| 久久99精品国产99久久6男男| 国产欧美一区二区三区四区| 国产一区二区三区四区五区七 | 国产乱码精品一区二区三区介绍 | 国产欧美www| 亚洲乱强伦| 国产日韩一区在线| 狠狠躁夜夜躁2020| 自拍偷在线精品自拍偷无码专区| 欧美日韩国产综合另类| 精品一区二区三区影院| 色噜噜日韩精品欧美一区二区| 亚洲欧洲日韩在线| 亚洲欧美日韩综合在线| 伊人av综合网| 国产91丝袜在线熟| 国产一区2| 国产一区二| 欧美精品六区| 日韩欧美视频一区二区| 99精品小视频| 国产精品日本一区二区不卡视频| 免费午夜在线视频| 波多野结衣女教师30分钟| 狠狠色噜噜狠狠狠狠米奇7777| 国产www亚洲а∨天堂| 99久久国产综合精品尤物酒店| 一区二区三区欧美视频| 夜夜精品视频一区二区| 欧美久久久一区二区三区| 国产美女视频一区二区三区| 日韩欧美精品一区二区| 亚洲**毛茸茸| 狠狠色狠狠色合久久伊人| 日本精品一区二区三区在线观看视频| 亚洲乱在线| 日本一码二码三码视频| 精品国产鲁一鲁一区二区三区| 国产品久久久久久噜噜噜狼狼| 日本99精品| 一区二区三区免费高清视频| 国产精品黑色丝袜的老师| 99久久精品国产国产毛片小说| 91国内精品白嫩初高生| 免费视频拗女稀缺一区二区| 日韩中文字幕亚洲欧美| 久久精品国语| 97精品久久人人爽人人爽| 中文字幕一区二区三区免费| 国产69精品久久久久久久久久| 夜夜嗨av色一区二区不卡| 夜夜躁人人爽天天天天大学生| 亚洲国产午夜片| 精品国产乱码一区二区三区a | 国产精品99在线播放| 91理论片午午伦夜理片久久 | 久久不卡精品| 亚州精品国产| 午夜毛片在线| 国产一区在线精品| 中文字幕+乱码+中文字幕一区| 国内视频一区二区三区| 中文乱码字幕永久永久电影 | 国产一区二区三区四区五区七| 国产99视频精品免视看芒果| 精品福利一区| 最新国产一区二区| 日韩三区三区一区区欧69国产| 欧美67sexhd| 一区二区久久精品| 国产视频一区二区三区四区| 精品一区二区三区视频?| 91精品第一页| 欧美日韩中文字幕三区| 国产精品女同一区二区免费站| 满春阁精品av在线导航 | 国产97在线看| 三级视频一区| 99国产精品免费观看视频re| 欧美极品少妇xxxxⅹ| 亚洲精品国产setv| 国产在线播放一区二区| 欧美精品一级二级| 91精品一区二区在线观看| 国产精品一区二| 国产一区精品在线观看| 国产精品视频久久久久久久| 国产精品日韩视频| 日韩毛片一区| 一区二区三区毛片| 色综合久久久| 欧洲激情一区二区| 97久久超碰国产精品红杏| 国产日韩一区在线| 日韩午夜一区| 性精品18videosex欧美| 久久国产欧美一区二区三区免费| 日本高清h色视频在线观看| 国产伦精品一区二区三| 美国一级片免费观看| 国产精品久久久久久久久久嫩草| 激情欧美日韩|