[發明專利]一種基于分布式的一站式采集方法及采集系統在審
| 申請號: | 202010960596.5 | 申請日: | 2020-09-14 |
| 公開(公告)號: | CN112100495A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 李釗;孫露;孫浩;楊春;魏靜;胡傳會;陳通 | 申請(專利權)人: | 山東億云信息技術有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/955;G06K9/62;G06F9/48 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 李圣梅 |
| 地址: | 250014 山東省濟南市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布式 一站式 采集 方法 系統 | ||
本公開提出了一種基于分布式的一站式采集方法及系統,包括:分布式采集集群構建:將集群服務器添加到采集集群中,并添加采集應用至集群服務器中;全網采集:集群服務器接收所需采集的網站,進行全網數據采集,并對網站中的列表頁數據進行過濾;解析:對過濾后的列表頁進行解析,獲取列表頁網站規則以及列表頁中詳情頁的規則;采集任務配置:配置增量采集和全量采集所需的采集應用,然后啟動增量采集和全量采集。用戶可根據采集需求自定義分配采集資源,采集任務結束后自動釋放采集資源,有效的提高了采集效率。
技術領域
本公開屬于數據采集技術領域,尤其涉及一種基于基于分布式的一站式采集方法及采集系統。
背景技術
本部分的陳述僅僅是提供了與本公開相關的背景技術信息,不必然構成在先技術。
現在越來越多的企業和政府都意識到了數據的重要性,而互聯網數據可以政府和企業提供底層數據信息。為了滿足政府和企業對海量數據的需求,就需要專業的分布式互聯網數據采集技術實現大規模的數據采集。
網頁數據類型多樣,展現形式也各有不同。傳統的數據采集技術可以實現對單一網站編寫特定的采集腳本、配置專屬該網頁的頁面解析規則,這導致采集成本很高,很難實現大規模的數據采集。而且實現使用門檻較高,普通用戶很難上手使用。在對采集任務監控中,對于不同的采集需求不能靈活設置采集周期采集、采集頻率,不能對不同的采集任務進行實時監控。
現在市面上也有一些數據采集工具,用戶可通過軟件界面配置目標網站的采集規則和采集計劃,并支持將數據保存和發布到Mysql/Oracle等數據庫中。但是這種工具多為客戶端軟件,無法進行分布式部署,采集性能也受到客戶端所在的物理機器的性能限制,同時需要人工配置網站規則,具有使用門檻,一些分布式爬蟲系統,部署繁瑣,尤其是在系統擴容時需要在新增的節點機器上單獨部署采集系統,并進行相關配置,系統擴容成本較高,也較繁瑣,而且,各個機器節點相對獨立,運維壓力較高,不支持可視化用戶界面,對于使用人員的技術要求較高。
發明內容
為克服上述現有技術的不足,本公開提供了一種基于基于分布式的一站式采集方法,該系統兼容多種網站數據類型,并支持大規模數據采集解決上述問題。
為實現上述目的,本公開的一個或多個實施例提供了如下技術方案:
第一方面,公開了一種基于分布式的一站式采集方法,包括:
分布式采集集群構建:將集群服務器添加到采集集群中,并添加采集應用至集群服務器中;
全網采集:集群服務器接收所需采集的網站,進行全網數據采集,并對網站中的列表頁數據進行過濾;
解析:對過濾后的列表頁進行解析,獲取列表頁網站規則以及列表頁中詳情頁的規則;
采集任務配置:配置增量采集和全量采集所需的采集應用,然后啟動增量采集和全量采集。
第二方面,公開了一種基于分布式的一站式采集系統,包括:
分布式采集集群構建模塊,被配置為:將集群服務器添加到采集集群中,并添加采集應用至集群服務器中;
全網采集模塊,被配置為:集群服務器接收所需采集的網站,進行全網數據采集,并對網站中的列表頁數據進行過濾;
解析模塊,被配置為:對過濾后的列表頁進行解析,獲取列表頁網站規則以及列表頁中詳情頁的規則;
采集任務配置模塊,被配置為:配置增量采集和全量采集所需的采集應用,然后啟動增量采集和全量采集。
第三方面,公開了一種采集系統,包括:
集群監控管理平臺、任務調度管理平臺及數據采集平臺;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東億云信息技術有限公司,未經山東億云信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010960596.5/2.html,轉載請聲明來源鉆瓜專利網。





