[發明專利]數據抓取方法、裝置及電子設備有效
| 申請號: | 201811269970.6 | 申請日: | 2018-10-29 |
| 公開(公告)號: | CN111104575B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 朱東方;鄒啟蒙;劉慶;周文軍 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/953 |
| 代理公司: | 廣州鑄智知識產權代理有限公司 44886 | 代理人: | 徐瑞紅 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 抓取 方法 裝置 電子設備 | ||
本發明實施例提供了一種數據抓取方法、裝置及電子設備,其中方法包括:接收數據抓取請求,所述數據抓取請求中至少包括資源配置參數,根據所述資源配置參數和當前爬蟲節點的資源配置屬性,確定當前爬蟲節點是否滿足所述資源配置參數,如果滿足,則執行數據抓取,如果不滿足,則向所述當前爬蟲節點的鄰近爬蟲節點廣播所述數據抓取請求。本發明實施例基于點對點的方式構建的爬蟲網絡系統來執行網絡數據抓取,避免了服務器集中式的調度和數據傳輸的單點瓶頸問題,能夠充分共享網絡帶寬,同時能夠避免數據獲取任務被目標網站屏蔽的風險。
技術領域
本申請涉及一種數據抓取方法、裝置及電子設備,屬于計算機技術領域。
背景技術
網絡爬蟲是目前獲取網站數據的重要方式,對數據分析、信息搜索等方面有重要作用。目前業界一般采用多機器部署的分布式網絡爬蟲架構,在這樣的架構下需要通過中心化的節點進行統一調度,系統實現的成本非常高,而且一旦資源調度系統出現問題,會導致整個網絡爬蟲系統癱瘓。
發明內容
本發明實施例提供一種數據抓取方法、裝置及電子設備,避免了服務器集中式的調度和數據傳輸的單點瓶頸問題,及數據獲取任務被目標網站屏蔽的風險。
為了實現上述目的,本發明實施例提供了一種數據抓取方法,包括:
接收數據抓取請求,所述數據抓取請求中至少包括資源配置參數;
根據所述資源配置參數和當前爬蟲節點的資源配置屬性,確定當前爬蟲節點是否滿足所述資源配置參數,如果滿足,則執行數據抓取,如果不滿足,則向所述當前爬蟲節點的鄰近爬蟲節點廣播所述數據抓取請求。
本發明實施例還提供了一種數據抓取裝置,包括:
數據抓取請求接收模塊,用于接收數據抓取請求,所述數據抓取請求中至少包括資源配置參數;
數據抓取模塊,用于根據所述資源配置參數和當前爬蟲節點的資源配置屬性,確定當前爬蟲節點是否滿足所述資源配置參數,在滿足的情況下,執行數據抓??;
數據抓取請求廣播模塊,用于根據所述資源配置參數和當前爬蟲節點的資源配置屬性,確定當前爬蟲節點是否滿足所述資源配置參數,在不滿足的情況下,向所述當前爬蟲節點的鄰近爬蟲節點廣播所述數據抓取請求。
本發明實施例還提供了一種電子設備,包括:
存儲器,用于存儲程序;
處理器,耦合至所述存儲器,用于執行所述程序,以用于如下處理:
接收數據抓取請求,所述數據抓取請求中至少包括資源配置參數;
根據所述資源配置參數和當前爬蟲節點的資源配置屬性,確定當前爬蟲節點是否滿足所述資源配置參數,如果滿足,則執行數據抓取,如果不滿足,則向所述當前爬蟲節點的鄰近爬蟲節點廣播所述數據抓取請求。
本發明實施例的數據抓取方法、裝置及電子設備基于點對點的方式構建的爬蟲網絡系統來執行網絡數據抓取,避免了服務器集中式的調度和數據傳輸的單點瓶頸問題,能夠充分共享網絡帶寬,同時能夠避免數據獲取任務被目標網站屏蔽的風險。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。
附圖說明
圖1為本發明實施例的數據抓取方法的流程示意圖;
圖2為本發明實施例的數據抓取方法的應用場景示意圖;
圖3為本發明實施例的數據抓取裝置的結構示意圖之一;
圖4為本發明實施例的數據抓取裝置的結構示意圖之二;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811269970.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:原子熒光分析用原子化器及原子熒光儀
- 下一篇:一種中空百葉玻璃窗的打膠裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





