[發明專利]一種數據抓取方法及裝置有效
| 申請號: | 201710985479.2 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN110020046B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 初光磊;丁彬;段盼盼;李學環;齊驥;錢嶺;胡靜;李京昊 | 申請(專利權)人: | 中移(蘇州)軟件技術有限公司;中國移動通信集團公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F9/48 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 215163 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 抓取 方法 裝置 | ||
本發明公開了一種數據抓取方法及裝置,其中,所述方法包括:基于用戶訪問互聯網的行為,生成網絡爬蟲對目標網站服務器進行抓取數據的任務對應的調度時間;基于所述調度時間對所述任務進行管理;在將所述任務發送給所述網絡爬蟲后,通過所述網絡爬蟲在所述目標網站服務器中進行數據抓取。用于解決現有數據抓取效率低,公平性差的技術問題,提高了數據抓取效率,且保證了抓取任務調度的公平性。
技術領域
本發明涉及計算機應用領域與信息技術領域,特別涉及一種數據抓取方法及裝置。
背景技術
隨著互聯網知識數據的爆炸式增長以及大數據技術在互聯網和信息行業的飛速發展,人們越來越依賴于網絡爬蟲來進行互聯網數據的抓取。然而,傳統的網絡爬蟲為了盡可能多的獲取網站中的高價值信息,會根據特定策略進行大規模的頁面訪問,不僅給互聯網網站的服務器帶來額外的負載壓力,而且占用了大量的網絡帶寬,造成網絡擁塞,最終導致數據抓取效率的降低。
因此,很多網站為了應對這一問題,對用戶的訪問頻率進行了監測:當一段時間內來自于同一個源地址的請求數過多時,服務器將會限制該地址用戶的后續訪問。目前,面對因不合理的抓取方式而被限制訪問的問題,網絡爬蟲主要采取使用代理IP和設置數據抓取頻率兩種方案。也就是說,第一種方案具體為:網絡爬蟲系統先將請求發往代理IP,再由代理IP代為訪問目標網站。第二種方案具體為:網絡爬蟲系統通過控制數據抓取頻率來實現禮貌抓取。
其中,第一種方案盡管可以避免服務器的對固定IP訪問的限制,但是目標網站服務器的負載壓力過大的問題并沒有得到有效的解決,沒有真正地實現禮貌抓取。此外,使用代理IP一方面引入了代理轉發的過程,增大了網絡負載;另一方面需要額外的時間與資源來判斷代理IP的可用性,降低了網絡爬蟲任務執行成功率。因此,使用代理IP的方法無法應用于面向全網的大規模數據抓取系統。
第二種方案盡管能夠實現真正意義上的禮貌爬取,但是這種方法是以犧牲網絡爬蟲的網絡IO性能為代價的。在百兆帶寬普及的今天,網絡帶寬已不是網絡爬蟲的性能瓶頸,而為網絡爬蟲設置任務執行的頻率不能充分地利用現有的帶寬資源,無法達到預期的抓取效率。
此外,在現有技術中,除了使用上述提到的兩種方案外,還采用將抓取任務隨機打亂之后插入到待抓取隊列中等待抓取。盡管這種做法在避免對同一服務器進程長時間的連續訪問的同時保證了網絡爬蟲的高效。然而,這種做法雖然在一定程度上實現了“禮貌爬取”,但是由于缺少對抓取任務的控制,會引發抓取任務調度中的公平性問題,比如,某些任務很早就加入到待抓取隊列,但是卻一直未得到調度。
可見,在現有技術中,存在對數據抓取效率低,公平性差的技術問題。
發明內容
本發明實施例提供一種數據抓取方法及裝置,用于解決現有數據抓取效率低,公平性差的技術問題,提高了數據抓取效率,且保證了抓取任務調度的公平性。
一方面,本發明實施例提供了一種數據抓取方法,包括:
基于用戶訪問互聯網的行為,生成網絡爬蟲對目標網站服務器進行抓取數據的任務對應的調度時間;
基于所述調度時間對所述任務進行管理;
在將所述任務發送給所述網絡爬蟲后,通過所述網絡爬蟲在所述目標網站服務器中進行數據抓取。
可選地,所述基于用戶訪問互聯網的行為,生成網絡爬蟲對目標網站服務器進行抓取數據的任務對應的調度時間,包括:
基于用戶訪問互聯網的行為,建立網絡爬蟲對目標網站服務器進行抓取數據的任務的泊松過程模型;
基于所述泊松過程模型,生成所述任務對應的調度時間。
可選地,所述基于所述調度時間對所述任務進行管理,包括:
建立包括待抓取隊列、結果隊列和等待隊列的至少三個工作隊列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中移(蘇州)軟件技術有限公司;中國移動通信集團公司,未經中移(蘇州)軟件技術有限公司;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710985479.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:關鍵詞路徑分析方法及裝置
- 下一篇:一種科技情報信息管理系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





