[發明專利]一種基于分布式數據處理框架的數據采集分析系統在審
| 申請號: | 201810216708.9 | 申請日: | 2018-03-19 |
| 公開(公告)號: | CN110309413A | 公開(公告)日: | 2019-10-08 |
| 發明(設計)人: | 張衛東;張偉 | 申請(專利權)人: | 西安電子科技大學;張偉 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 710071*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據采集分析系統 分布式數據處理 構建 分布式集群 數據格式化 數據需求方 數據流 企業決策 實時數據 數據分析 智能選擇 可擴展 可視化 拼接 解析 智能 對抗 科研 決策 分析 | ||
本發明公開了一種基于Storm和Hadoop分布式數據處理框架的數據采集分析系統,該系統的核心在于通過Storm和Hadoop這兩種開源的分布式集群框架,構建穩定可擴展的底層數據流平臺,構建智能反爬模塊進行數據爬取中的對抗,多種web數據解析方式智能選擇,數據格式化,數據分析和可視化。通過些模塊的拼接,實現穩定,易于擴展,易于操作的數據采集分析系統,使得數據需求方擁有穩定快速的實時數據的機會,并可對感興趣的數據進行多樣化分析滿足需求方的決策需求,適用于科研和企業決策所需數據的方方面面。
技術領域
本發明涉及服務器系統框架領域,屬于web搜索爬取技術在分布式服務器中的擴展應用,具體涉及反爬對抗,網頁解析,信息糾錯,數據格式化,分布式數據結構,適用于現代web 數據采集和分析的相關需求。
背景技術
因為搜索引擎的流行,網絡爬蟲已經成了很普及網絡技術,除了專門做搜索的Google, Yahoo,微軟,百度以外,幾乎每個大型門戶網站都有自己的搜索引擎,大大小小叫得出來名字得就幾十種,還有各種不知名的幾千幾萬種,對于一個內容型驅動的網站來說,受到網絡爬蟲的光顧是不可避免的。
一些智能的搜索引擎爬蟲的爬取頻率比較合理,對網站資源消耗比較少,但是很多糟糕的網絡爬蟲,對網頁爬取能力很差,經常并發幾十上百個請求循環重復抓取,這種爬蟲對中小型網站往往是毀滅性打擊,特別是一些缺乏爬蟲編寫經驗的程序員寫出來的爬蟲破壞力極強,造成的網站訪問壓力會非常大,會導致網站訪問速度緩慢,甚至無法訪問。
本系統設計了以下5大模塊:
1.反爬對抗模塊
此模塊使用了ip代理池切換,模擬瀏覽器頭部訪問,動態時延調度,PhantomJS渲染和模擬用戶登錄模塊這5部分進行反爬對抗。
2.多種web數據解析模塊
此模塊使用XML,HTML,JSON三種數據路徑解析方式,對web數據進行提取。
3.數據糾錯和格式化模塊
利用java機制構造各種異常捕獲單元,對出現的異常數據進行處理;將采集的新聞,
數字等信息根據規范進行數據格式化。
4.數據系統監控模塊
使用ELK,Nagios對采集數據以及集群狀態進行監控。
5.數據可視化模塊
使用主流web前端技術,將數據統計分析,制作出各種圖表在網頁中實時展示。
發明內容
本發明的目的在于克服上述現有技術的不足,提出了一種基于分布式數據處理框架的數據采集分析系統,用以實現穩定可擴展的網絡數據采集分析的功能
本發明的具體思路是:將基于分布式流處理框架Storm的數據采集系統和基于分布式批處理框架Hadoop的數據分析展示系統通過Nosql型數據庫相結合的方案,首先利用KVM虛擬機技術將實體機劃分成數個虛擬服務器并安裝Fedora系統,在這些虛擬服務器上部署安裝 Storm和Hadoop的底層架構,在Storm底層架構基礎上利用互聯網爬蟲技術實現分布式數據采集系統。通過Nosql型數據庫做中間件,將采集到的數據分發到基于Hadoop的分布式數據分析展示系統中進行分析和展示。本分布式數據采集分析系統克服了傳統數據采集分析系統穩定性差、可擴展性差、容錯低以及不及時的缺點,實現了網絡數據采集分析的穩定自動化。
本發明與現有技術相比具有如下優點
第一,本發明針對目前互聯網公司采用的反爬取策略進行了5個方面的破解,使系統可以正常采集收據
第二,本發明數據采集使用多種數據路徑解析方式,針對不同的數據格式進行有針對的爬取路徑選擇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學;張偉,未經西安電子科技大學;張偉許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810216708.9/2.html,轉載請聲明來源鉆瓜專利網。





