[發(fā)明專利]網絡爬取方法和裝置在審
| 申請?zhí)枺?/td> | 201710571635.0 | 申請日: | 2017-07-13 |
| 公開(公告)號: | CN107423382A | 公開(公告)日: | 2017-12-01 |
| 發(fā)明(設計)人: | 羅秋科;林強;張楠;李健華;賈建華;杜景榮;于穎 | 申請(專利權)人: | 中國物品編碼中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司11205 | 代理人: | 楊澤,劉芳 |
| 地址: | 100029 北京市東城區(qū)安*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 方法 裝置 | ||
技術領域
本發(fā)明涉及通信技術,尤其涉及一種網絡爬取方法和裝置。
背景技術
隨著網絡資源的不斷豐富,越來越多的平臺需要大量的數據支撐才能完成相應的功能。通常獲取數據資源的渠道包括:通過托管平臺登錄后獲得數據、直接連接其他系統(tǒng)的數據庫以及采用數據接口的方式進行數據對接。但這些渠道或多或少會出現無法獲取相關數據、成本較高的問題。因此,目前采用網絡爬取技術對網頁上的數據進行爬取,以便于平臺尋找到網頁和相關數據。
由于curl(CommandLine Uniform Resource Locator)函數支持GET、POST等瀏覽器行為,能夠達到一個模擬瀏覽器操作的目的,因此,在現有網絡爬取方法中,通常使用RCurl程序包中的curl函數完成網頁數據的抓取過程,進而獲取網頁上的數據。然而,僅采用curl函數的現有網絡爬取方法curl無法完成數據量較大的爬取任務。因此,亟需一種能夠爬取大量數據的網絡爬取方法。
發(fā)明內容
本發(fā)明提供一種網絡爬取方法和裝置,以以解決現有的網絡爬取方法無法完成數量量較大的爬取任務的問題。
第一方面,本發(fā)明提供一種網絡爬取方法,應用于網絡爬取系統(tǒng),所述網絡爬取系統(tǒng)包括:一個主節(jié)點和多個子節(jié)點,針對任一子節(jié)點,所述方法包括:
所述子節(jié)點接收所述主節(jié)點發(fā)送的子任務,所述子任務中包括爬取任務的任務類型以及所述子節(jié)點對應的搜索組中的網站地址,所述搜索組中包括至少一個網站地址,所述搜索組是所述主節(jié)點根據分布式編程框架map-reduce和所述爬取任務的任務類型,對所述至少一個網站地址進行劃分得到的;
所述子節(jié)點根據所述子任務進行爬取,將得到的爬取數據存儲到本地存儲器中;
所述子節(jié)點在所述本地存儲器中進行查詢,得到查詢結果,并向所述主節(jié)點發(fā)送所述查詢結果。
可選地,所述子節(jié)點根據所述子任務進行爬取,所述將得到的爬取數據存儲到本地存儲器中,包括:
所述子節(jié)點對所述子任務中的網站地址進行遍歷連接,得到連接成功的第一網站地址和連接失敗的第二網站地址;
所述子節(jié)點獲取所述第一網站地址中待爬取的網頁數據頁對應的鏈接;
所述子節(jié)點對所述第一網站地址中各所述待爬取的網頁數據頁對應的鏈接進行遍歷連接,得到連接成功的第一鏈接和連接失敗的第二鏈接;
所述子節(jié)點根據所述爬取任務的任務類型,對所述第一鏈接對應的各所述網頁數據進行過濾處理,得到所述第一鏈接對應的網頁數據;
所述子節(jié)點對所述第一鏈接對應的網頁數據進行解析,得到目標爬取數據;
所述子節(jié)點將所述目標爬取數據以及對應的第一鏈接存儲到所述本地存儲器中。
可選地,所述方法還包括:
所述子節(jié)點重新連接所述第二鏈接,并判斷所述子節(jié)點是否與所述第二鏈接連接成功;
若是,則所述子節(jié)點根據所述爬取任務的任務類型,對所述第二鏈接對應的各所述網頁數據進行過濾處理,得到所述第二鏈接對應的網頁數據,并對所述第二鏈接對應的網頁數據進行解析,得到所述目標爬取數據,并將所述目標爬取數據以及對應的第二鏈接存儲到所述本地存儲器中;
若否,重復執(zhí)行連接所述第二鏈接,并判斷所述子節(jié)點是否與所述第二鏈接連接成功的操作,若在重復連接的次數超過第一預設次數時,則所述子節(jié)點將所述第二鏈接存儲到所述本地存儲器中。
可選地,所述方法還包括:
所述子節(jié)點重新連接所述第二網站地址,并判斷所述子節(jié)點是否與所述第二網站地址連接成功;
若是,所述子節(jié)點獲取所述第二網站地址中待爬取的網頁數據頁對應的鏈接;
所述子節(jié)點對所述第二網站地址中各所述待爬取的網頁數據頁對應的鏈接進行遍歷連接,得到連接成功的第三鏈接和連接失敗的第四鏈接;
所述子節(jié)點根據所述爬取任務的任務類型,對所述第三鏈接對應的各所述網頁數據進行過濾處理,得到所述第三鏈接對應的網頁數據;
所述子節(jié)點對所述第三鏈接對應的網頁數據進行解析,得到所述目標抓取數據;
所述子節(jié)點將所述目標爬取數據以及對應的第三鏈接存儲到所述本地存儲器中;
若否,重復執(zhí)行連接所述第二網站地址,并判斷所述子節(jié)點是否與所述第二網站地址連接成功的操作,若在重復連接的次數超過第二預設次數時,則所述子節(jié)點將所述第二網站地址存儲到所述本地存儲器中。
可選地,所述方法還包括:
所述子節(jié)點重新連接所述第四鏈接,并判斷所述子節(jié)點是否與所述第四鏈接連接成功;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國物品編碼中心,未經中國物品編碼中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710571635.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于AR技術的本冊
- 下一篇:一種能夠固定圖書的書簽





