[發明專利]一種基于配置的分布式公文數據采集系統在審
| 申請號: | 201910523201.2 | 申請日: | 2019-06-17 |
| 公開(公告)號: | CN110297960A | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 馬新凡;刁烽;宋旻雨;李澤松;劉福強;孫俊杰;熊志豪 | 申請(專利權)人: | 中電科大數據研究院有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9538;G06F16/958 |
| 代理公司: | 貴陽睿騰知識產權代理有限公司 52114 | 代理人: | 宋妍麗 |
| 地址: | 550000 貴州省貴陽市貴陽*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 公文數據 任務處理器 數據存儲器 爬蟲 采集系統 配置的 校驗器 異構性 配置 分布式數據采集 報警監控功能 數據存儲系統 可視化界面 操作管理 多數據源 功能獲取 公文模板 可管理性 可擴展性 實時獲取 數據結果 水平擴展 問題追蹤 郵件推送 高效性 數據源 中間件 屏蔽 部署 展示 統計 統一 維護 | ||
本發明提供了一種基于配置的分布式公文數據采集系統,包括配置校驗器、爬蟲任務處理器、數據存儲器;所述配置校驗器、爬蟲任務處理器、數據存儲器由上至下逐層部署。本發明具備高效性,通過配置化實現數據實時獲取,無需編碼,有效提高了公文數據的獲取效率;具備可管理性,通過可視化界面對公文模板和獲取結果進行展示、統一操作管理,可通過郵件推送功能獲取數據結果增量統計,可通過報警監控功能進行問題追蹤,便于維護;具備可擴展性,可以根據需要進行水平擴展,實現分布式數據采集;具備數據異構性,爬取海量多數據源的公文數據時,通過Redis作為中間件,屏蔽了數據源和數據存儲系統的異構性。
技術領域
本發明涉及一種基于配置的分布式公文數據采集系統,屬于大數據技術領域。
背景技術
21世紀是一個大數據時代,數據無處不在,存在于生活的方方面面。無論是出于數據分析還是產品需求,我們都需要從某些網站提取出我們感興趣,有價值的內容。但由于收集數據是一個重復性工作,且人力有窮盡,所以爬蟲應運而生,并且迅速的發展壯大。
爬蟲是通過編寫一段代碼,來獲取目標網站上我們感興趣的數據,減少人為工作量。爬蟲的主要流程:獲取一個初始網頁的URL,獲得初始URL上的所有信息,再次在獲得的信息中抓取我們感興趣的內容,并對該內容進行解析匹配,最終保存到數據庫。對所有URL分別執行上述流程,直到遍歷完所有的URL。一般而言,爬蟲總體可分為網絡請求模塊、爬取流程控制模塊和內容分析提取模塊三個模塊.
如今市面上的爬蟲功能一般分為數據采集(下載相關的網頁),數據處理(對相關網頁的數據進行分析)和數據存儲(將所需要爬取的內容進行保存)三個部分的內容,而高級的爬蟲則使用了分布式技術以及并發編程用于相關數據爬取以及分析。在過去爬蟲所爬取的網站頁面主要是html文檔本身,所以爬蟲所抓取的內容大部分都是html中包含的內容,但是隨著前端技術的發展,動態網頁的概率越來越大,這些動態網站中使用了ajax技術,相比起傳統的html文檔,如今很多網頁的信息都是通過javascript動態生成的。網頁的多樣性導致了常見的爬蟲程序無法適用不同格式的網頁,在針對不同格式的網站爬取時后端程序員需要在原有代碼上進行修改,這極大的降低了工作效率和代碼維護性。
發明內容
為解決上述技術問題,本發明提供了一種基于配置的分布式公文數據采集系統,該基于配置的分布式公文數據采集系統通過以配置文件為核心的方式,可提供在線配置的方式以替代現有的編寫執行代碼的方式,從而極大的提高工作效率。
本發明通過以下技術方案得以實現。
本發明提供的一種基于配置的分布式公文數據采集系統,包括配置校驗器、爬蟲任務處理器、數據存儲器;所述配置校驗器、爬蟲任務處理器、數據存儲器由上至下逐層部署,其中:
配置校驗器讀取配置文件,對讀取到的配置文件進行校驗,校驗通過則根據配置文件的配置項調用爬蟲任務處理器執行;
爬蟲任務處理器根據配置項生成任務列表,以預設周期對任務列表中的任務逐項執行,每項任務根據配置項的內容爬取數據并將爬取到的數據通過數據存儲器進行存儲,爬取數據過程中對爬取的數據進行模板匹配,爬取數據和模板匹配的過程與結果信息保存于詳情列表;
數據存儲器對所爬取的數據的數據格式進行解析,將文本數據以結構化方式存儲,將圖片數據和附件以非結構化方式存儲。
還包括任務監控模塊,任務監控模塊對任務列表的生成過程以及任務列表中每項任務的執行狀態進行監控。
還部署有REST服務模塊,REST服務模塊提供一次性的任務生成及調度。
所述數據存儲器中,對于非結構化方式存儲的數據,將指向數據路徑的字段以json方式存儲于文本數據。
所述數據存儲器為Redis。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電科大數據研究院有限公司,未經中電科大數據研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910523201.2/2.html,轉載請聲明來源鉆瓜專利網。





