[發明專利]一種數據抓取方法及裝置有效
| 申請號: | 201710985479.2 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN110020046B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 初光磊;丁彬;段盼盼;李學環;齊驥;錢嶺;胡靜;李京昊 | 申請(專利權)人: | 中移(蘇州)軟件技術有限公司;中國移動通信集團公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F9/48 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 215163 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 抓取 方法 裝置 | ||
1.一種數據抓取方法,其特征在于,包括:
基于用戶訪問互聯網的行為,生成網絡爬蟲對目標網站服務器進行抓取數據的任務對應的調度時間;
基于所述調度時間對所述任務進行管理;
在將所述任務發送給所述網絡爬蟲后,通過所述網絡爬蟲在所述目標網站服務器中進行數據抓取;
其中,所述基于用戶訪問互聯網的行為,生成網絡爬蟲對目標網站服務器進行抓取數據的任務對應的調度時間,包括:
基于用戶訪問互聯網的行為,建立網絡爬蟲對目標網站服務器進行抓取數據的任務的泊松過程模型;
基于所述泊松過程模型,生成所述任務對應的調度時間;
其中,所述基于所述泊松過程模型,生成所述任務對應的調度時間,包括:
通過所述泊松過程模型,生成所述網絡爬蟲對所述目標網站服務器進行訪問的兩條任務間的服從指數分布的時間間隔;
在初始化時間點之后,生成所述網絡爬蟲對所述目標網站服務器進行抓取數據的任務的調度時間。
2.如權利要求1所述的方法,其特征在于,所述基于所述調度時間對所述任務進行管理,包括:
建立包括待抓取隊列、結果隊列和等待隊列的至少三個工作隊列;
當系統的當前時間到達所述任務對應的調度時間時,從所述待抓取隊列中提取所述網絡爬蟲需在當前時刻進行抓取的第一鏈接地址集;
在所述網絡爬蟲抓取所述第一鏈接地址集之后,將抓取過程中提取到的子鏈接地址集插入所述結果隊列,且將所述網絡爬蟲尚未抓取且等待調度的第二鏈接地址集插入所述等待隊列,其中,所述結果隊列還包括與所述子鏈接地址集對應的服務器地址集,每個子鏈接地址對應一個服務器地址,所述等待隊列還包括與所述第二鏈接地址集對應的調度時間集,每個第二鏈接地址對應一個調度時間。
3.如權利要求2所述的方法,其特征在于,所述基于所述調度時間對所述任務進行管理,包括:
獲取所述待抓取隊列的隊列長度;
若所述隊列長度小于一預設調度閾值,將所述等待隊列的每個鏈接地址根據優先級由小到大插入所述待抓取隊列,獲得更新后的待抓取隊列。
4.如權利要求2所述的方法,其特征在于,所述基于所述調度時間對所述任務進行管理,包括:
在接收到所述等待隊列的更新請求時,將所述結果隊列的每個子鏈接地址基于對應的服務器地址按照第一預設規則插入所述等待隊列,并將確定的每個子鏈接地址對應的調度時間相應的插入所述等待隊列,獲得更新后的等待隊列。
5.如權利要求2所述的方法,其特征在于,所述基于所述調度時間對所述任務進行管理,包括:
當所述系統的當前時間到達所述待抓取隊列的隊頭對應的任務的調度時間時,調度隊頭對應的任務,將隊頭對應的任務發送給所述網絡爬蟲,通過所述網絡爬蟲在所述目標網站服務器中抓取獲得第三鏈接地址集;
將所述第三鏈接地址集中每個鏈接地址基于對應的服務器地址按照第二預設規則插入所述結果隊列,獲得更新后的結果隊列。
6.一種數據抓取裝置,其特征在于,包括:
生成模塊,基于用戶訪問互聯網的行為,生成網絡爬蟲對目標網站服務器進行抓取數據的任務對應的調度時間;
處理模塊,基于所述調度時間對所述任務進行管理;且在將所述任務發送給所述網絡爬蟲后,通過所述網絡爬蟲在所述目標網站服務器中進行數據抓取;
其中,所述生成模塊用于:
基于用戶訪問互聯網的行為,建立網絡爬蟲對目標網站服務器進行抓取數據的任務的泊松過程模型;
基于所述泊松過程模型,生成所述任務對應的調度時間;
其中,所述生成模塊用于:
通過所述泊松過程模型,生成所述網絡爬蟲對所述目標網站服務器進行訪問的兩條任務間的服從指數分布的時間間隔;
在初始化時間點之后,生成所述網絡爬蟲對所述目標網站服務器進行抓取數據的任務的調度時間。
7.一種計算機裝置,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至5任一權項所述方法的步驟。
8.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至5任一權項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中移(蘇州)軟件技術有限公司;中國移動通信集團公司,未經中移(蘇州)軟件技術有限公司;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710985479.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:關鍵詞路徑分析方法及裝置
- 下一篇:一種科技情報信息管理系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





