[發明專利]網絡數據采集處理方法、裝置和電子設備在審
| 申請號: | 202110106093.6 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112764908A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 劉龍強 | 申請(專利權)人: | 北京鼎普科技股份有限公司 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48;G06F9/50;G06F9/54;G06F16/955;G06F16/957;G06F16/906 |
| 代理公司: | 北京知呱呱知識產權代理有限公司 11577 | 代理人: | 孫志一 |
| 地址: | 100095 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 數據 采集 處理 方法 裝置 電子設備 | ||
本發明實施例公開了網絡數據采集處理方法、裝置和電子設備,該方法包括:獲取目標網絡數據;根據所述目標網絡數據生成調度數據文件和調度控制文件,其中,所述調度數據文件用于存儲需要采集的任務,所述調度數據文件中的每條記錄包括數據長度和數據信息,所述調度控制文件用于控制所述調度數據文件,所述調度控制文件包括數據來源、優先等級和數據讀取相關信息;通過所述調度控制文件控制將所述調度數據文件中的數據信息進行解析后存儲在文件隊列中。本發明網絡數據采集存儲效率高,資源利用率高。
技術領域
本發明實施例涉及網絡數據采集領域,具體涉及網絡數據采集處理方法、裝置和電子設備。
背景技術
在網絡數據采集時,需要多任務采集多個站點中的數據,多采用分布式來提升數據采集效率,即一個采集調度、多個采集爬蟲來實現多個站點任務的同時采集。
為了實現網絡數據采集,需要選擇站點中比較重要的、出度的URL作為被采集網站的入口地址(稱為種子URL),爬蟲將從這些種子URL開始采集,網頁數據采集回來后,需要再次解析頁面中數據元素,提取出頁面中的URL再次進行采集。這樣一個URL能解析出一批新的URL,如此反復進行,直到站點中全部URL采集完成。
可以把站點內網頁之間互相連接的關系結構視為一個森林,每個種子URL對應著一片森林的入口,通過這個入口可以發現整片森林。所以在網絡數據采集的過程中,經常遇到URL爆發式增長,如何管理、保存與分配這些URL資源,實現爬蟲與采集任務的合理調度具有重要意義。
目前,對管理、保存與分配這些URL資源的的方式存在問題:
1、沒有調度,一個站點一個爬蟲獨立采集,將URL任務分散在爬蟲上;各自獨立工作,無法實現資源合理分配與多任務、多站點同采集調度。
2、使用隊列保存待采集的URL數據。使用內存較大,內存不夠時易造成數據丟失,同時應用退出或系統重啟會造成緩存數據丟失。
3、使用數據庫緩存URL地址數據。調度效率不高,每個URL調度需要添加、刪除數據庫記錄一次,影響數據采集效率。
4、使用kafka等中間件緩存URL地址數據。使用kafka等中間件緩存URL地址數據。
發明內容
本發明實施例的目的在于提供網絡數據采集處理方法、裝置和電子設備,用以解決現有數據采集存儲時出現的問題。
為實現上述目的,本發明實施例主要提供如下技術方案:
第一方面,本發明實施例提供了一種網絡數據采集處理方法,包括:
獲取目標網絡數據;
根據所述目標網絡數據生成調度數據文件和調度控制文件,其中,所述調度數據文件用于存儲需要采集的任務,所述調度數據文件中的每條記錄包括數據長度和數據信息,所述調度控制文件用于控制所述調度數據文件,所述調度控制文件包括數據來源、優先等級和數據讀取相關信息;
通過所述調度控制文件控制將所述調度數據文件中的數據信息存儲到文件隊列中。
根據本發明的一個實施例,通過所述調度控制文件控制將所述調度數據文件中的數據信息存儲到文件隊列中,包括:
所述調度控制文件根據資源的優先等級和資源序號將所述調度數據文件中的數據信息存儲到所述文件隊列中。
根據本發明的一個實施例,根據所述目標網絡數據生成調度數據文件和調度控制文件,包括:
將所述目標網絡數據解析的解析結果存入緩存中;
當所述緩存中的記錄數量達到預設數據閾值,或當緩存時長超過預設時間閾值,則根據所述目標網絡數據解析的解析結果生成所述調度數據文件和所述調度控制文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京鼎普科技股份有限公司,未經北京鼎普科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110106093.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





