[發明專利]一種高效的分布式大數據采集系統在審
| 申請號: | 201711236195.X | 申請日: | 2017-12-01 |
| 公開(公告)號: | CN110019465A | 公開(公告)日: | 2019-07-16 |
| 發明(設計)人: | 周峻松;徐繼峰;祁建明;陳墩金 | 申請(專利權)人: | 廣州明領基因科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 510610 廣東省廣州市天河區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抓取 數據存儲模塊 采集系統 解析模塊 大數據 預處理 模塊提供 原始數據 持久化 規則化 可用 抽取 代理 分析 | ||
1.一種高效的分布式大數據采集系統,其特征在于,所述系統包括:抓取模塊、IP代理池模塊、解析模塊、URL處理模塊以及數據存儲模塊;其中,所述抓取摸塊從URL隊列中獲取要爬取的URL后便從Internet抓取指定的原始數據;所述IP代理池模塊負責給所述抓取模塊提供可用代理;所述解析模塊用于對數據進行預處理與抽取;所述URL處理模塊主要用于對URL相關數據的處理;所述數據存儲模塊負責對數據進行規則化和持久化,為后續的分析和處理奠定基礎。
2.根據權利要求1所述的一種高效的分布式大數據采集系統,其特征在于,所述IP代理池模塊使用公共代理池機制,每次抓取一定數量數據或一定時間后,或出現IP限制情況時,便從代理池中獲取一個新的可用代理并切換到該代理繼續訪問。
3.根據權利要求1所述的一種高效的分布式大數據采集系統,其特征在于,所述解析模塊負責對數據進行預處理,去掉一些明顯噪聲后通過基于標簽樹塊節點權重的正文提取算法來提取正文信息,實現URL相關數據與基本數據的分離。
4.根據權利要求1所述的一種高效的分布式大數據采集系統,其特征在于,所述URL處理模塊負責對收集到的URL相關數據進行過濾后再次投入URL隊列,從而實現對分布式抓取的控制。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州明領基因科技有限公司,未經廣州明領基因科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711236195.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:頁面處理方法及裝置
- 下一篇:基于元數據的大數據集成系統





