[發明專利]一種基于分布式數據處理框架的數據采集分析系統在審
| 申請號: | 201810216708.9 | 申請日: | 2018-03-19 |
| 公開(公告)號: | CN110309413A | 公開(公告)日: | 2019-10-08 |
| 發明(設計)人: | 張衛東;張偉 | 申請(專利權)人: | 西安電子科技大學;張偉 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據采集分析系統 分布式數據處理 構建 分布式集群 數據格式化 數據需求方 數據流 企業決策 實時數據 數據分析 智能選擇 可擴展 可視化 拼接 解析 智能 對抗 科研 決策 分析 | ||
1.一種基于分布式數據處理框架的數據采集分析系統包括如下系統過程:
(A)反爬對抗模塊-此模塊使用了ip代理池切換,模擬瀏覽器頭部訪問,動態時延調度,PhantomJS渲染和模擬用戶登錄模塊這5部分進行反爬對抗。
(B)多種web數據解析模塊-此模塊使用XML,HTML,JSON三種數據路徑解析方式,對web數據進行提取。
(C)數據糾錯和格式化模塊-利用java機制構造各種異常捕獲單元,對出現的異常數據進行處理;將采集的新聞,數字等信息根據規范進行數據格式化。
(D)數據系統監控模塊-使用ELK,Nagios對采集數據以及集群狀態進行監控。
(E)數據可視化模塊-使用主流web前端技術,將數據統計分析,制作出各種圖表在網頁中實時展示。
2.根據權利要求1所述的一種基于Storm和Hadoop分布式數據處理框架的數據采集分析系統,其中A過程所述的5部分反爬策略聯合動態適配進行web數據獲取的方法,是軟件實現的智能調度模式。
3.根據權利要求1所述的一種基于Storm和Hadoop分布式數據處理框架的數據采集分析系統,其中過程B所述的三種解析方式實現方法為Xpath,Selector,DOM樹通過java語言實現的數據解析。
4.根據權利要求1所述的一種基于Storm和Hadoop分布式數據處理框架的數據采集分析系統,其中過程C數據糾錯技術通過java的異常拋出機制進行實現,而數據格式化通過正則表達式進行數據信息的規整。
5.根據權利要求1所述的一種基于Storm和Hadoop分布式數據處理框架的數據采集分析系統,其中過程D采用開源軟件ELK,Nagios進行數據系統的軟件和硬件性能的整體監控方案。
6.根據權利要求1所述的一種基于Storm和Hadoop分布式數據處理框架的數據采集分析系統,其中過程E將采集的數據通過前端技術,以柱狀圖,餅狀圖,百分圖的形式提供展示,可以通過web請求到所需要的數據的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學;張偉,未經西安電子科技大學;張偉許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810216708.9/1.html,轉載請聲明來源鉆瓜專利網。





