[發(fā)明專利]一種數(shù)據(jù)抓取方法及裝置有效
| 申請?zhí)枺?/td> | 201710985479.2 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN110020046B | 公開(公告)日: | 2021-06-15 |
| 發(fā)明(設計)人: | 初光磊;丁彬;段盼盼;李學環(huán);齊驥;錢嶺;胡靜;李京昊 | 申請(專利權)人: | 中移(蘇州)軟件技術有限公司;中國移動通信集團公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F9/48 |
| 代理公司: | 北京同達信恒知識產(chǎn)權代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 215163 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數(shù)據(jù) 抓取 方法 裝置 | ||
1.一種數(shù)據(jù)抓取方法,其特征在于,包括:
基于用戶訪問互聯(lián)網(wǎng)的行為,生成網(wǎng)絡爬蟲對目標網(wǎng)站服務器進行抓取數(shù)據(jù)的任務對應的調(diào)度時間;
基于所述調(diào)度時間對所述任務進行管理;
在將所述任務發(fā)送給所述網(wǎng)絡爬蟲后,通過所述網(wǎng)絡爬蟲在所述目標網(wǎng)站服務器中進行數(shù)據(jù)抓取;
其中,所述基于用戶訪問互聯(lián)網(wǎng)的行為,生成網(wǎng)絡爬蟲對目標網(wǎng)站服務器進行抓取數(shù)據(jù)的任務對應的調(diào)度時間,包括:
基于用戶訪問互聯(lián)網(wǎng)的行為,建立網(wǎng)絡爬蟲對目標網(wǎng)站服務器進行抓取數(shù)據(jù)的任務的泊松過程模型;
基于所述泊松過程模型,生成所述任務對應的調(diào)度時間;
其中,所述基于所述泊松過程模型,生成所述任務對應的調(diào)度時間,包括:
通過所述泊松過程模型,生成所述網(wǎng)絡爬蟲對所述目標網(wǎng)站服務器進行訪問的兩條任務間的服從指數(shù)分布的時間間隔;
在初始化時間點之后,生成所述網(wǎng)絡爬蟲對所述目標網(wǎng)站服務器進行抓取數(shù)據(jù)的任務的調(diào)度時間。
2.如權利要求1所述的方法,其特征在于,所述基于所述調(diào)度時間對所述任務進行管理,包括:
建立包括待抓取隊列、結果隊列和等待隊列的至少三個工作隊列;
當系統(tǒng)的當前時間到達所述任務對應的調(diào)度時間時,從所述待抓取隊列中提取所述網(wǎng)絡爬蟲需在當前時刻進行抓取的第一鏈接地址集;
在所述網(wǎng)絡爬蟲抓取所述第一鏈接地址集之后,將抓取過程中提取到的子鏈接地址集插入所述結果隊列,且將所述網(wǎng)絡爬蟲尚未抓取且等待調(diào)度的第二鏈接地址集插入所述等待隊列,其中,所述結果隊列還包括與所述子鏈接地址集對應的服務器地址集,每個子鏈接地址對應一個服務器地址,所述等待隊列還包括與所述第二鏈接地址集對應的調(diào)度時間集,每個第二鏈接地址對應一個調(diào)度時間。
3.如權利要求2所述的方法,其特征在于,所述基于所述調(diào)度時間對所述任務進行管理,包括:
獲取所述待抓取隊列的隊列長度;
若所述隊列長度小于一預設調(diào)度閾值,將所述等待隊列的每個鏈接地址根據(jù)優(yōu)先級由小到大插入所述待抓取隊列,獲得更新后的待抓取隊列。
4.如權利要求2所述的方法,其特征在于,所述基于所述調(diào)度時間對所述任務進行管理,包括:
在接收到所述等待隊列的更新請求時,將所述結果隊列的每個子鏈接地址基于對應的服務器地址按照第一預設規(guī)則插入所述等待隊列,并將確定的每個子鏈接地址對應的調(diào)度時間相應的插入所述等待隊列,獲得更新后的等待隊列。
5.如權利要求2所述的方法,其特征在于,所述基于所述調(diào)度時間對所述任務進行管理,包括:
當所述系統(tǒng)的當前時間到達所述待抓取隊列的隊頭對應的任務的調(diào)度時間時,調(diào)度隊頭對應的任務,將隊頭對應的任務發(fā)送給所述網(wǎng)絡爬蟲,通過所述網(wǎng)絡爬蟲在所述目標網(wǎng)站服務器中抓取獲得第三鏈接地址集;
將所述第三鏈接地址集中每個鏈接地址基于對應的服務器地址按照第二預設規(guī)則插入所述結果隊列,獲得更新后的結果隊列。
6.一種數(shù)據(jù)抓取裝置,其特征在于,包括:
生成模塊,基于用戶訪問互聯(lián)網(wǎng)的行為,生成網(wǎng)絡爬蟲對目標網(wǎng)站服務器進行抓取數(shù)據(jù)的任務對應的調(diào)度時間;
處理模塊,基于所述調(diào)度時間對所述任務進行管理;且在將所述任務發(fā)送給所述網(wǎng)絡爬蟲后,通過所述網(wǎng)絡爬蟲在所述目標網(wǎng)站服務器中進行數(shù)據(jù)抓取;
其中,所述生成模塊用于:
基于用戶訪問互聯(lián)網(wǎng)的行為,建立網(wǎng)絡爬蟲對目標網(wǎng)站服務器進行抓取數(shù)據(jù)的任務的泊松過程模型;
基于所述泊松過程模型,生成所述任務對應的調(diào)度時間;
其中,所述生成模塊用于:
通過所述泊松過程模型,生成所述網(wǎng)絡爬蟲對所述目標網(wǎng)站服務器進行訪問的兩條任務間的服從指數(shù)分布的時間間隔;
在初始化時間點之后,生成所述網(wǎng)絡爬蟲對所述目標網(wǎng)站服務器進行抓取數(shù)據(jù)的任務的調(diào)度時間。
7.一種計算機裝置,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權利要求1至5任一權項所述方法的步驟。
8.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權利要求1至5任一權項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中移(蘇州)軟件技術有限公司;中國移動通信集團公司,未經(jīng)中移(蘇州)軟件技術有限公司;中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710985479.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:關鍵詞路徑分析方法及裝置
- 下一篇:一種科技情報信息管理系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





