[發明專利]一種基于配置的分布式公文數據采集系統在審
| 申請號: | 201910523201.2 | 申請日: | 2019-06-17 |
| 公開(公告)號: | CN110297960A | 公開(公告)日: | 2019-10-01 |
| 發明(設計)人: | 馬新凡;刁烽;宋旻雨;李澤松;劉福強;孫俊杰;熊志豪 | 申請(專利權)人: | 中電科大數據研究院有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9538;G06F16/958 |
| 代理公司: | 貴陽睿騰知識產權代理有限公司 52114 | 代理人: | 宋妍麗 |
| 地址: | 550000 貴州省貴陽市貴陽*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 公文數據 任務處理器 數據存儲器 爬蟲 采集系統 配置的 校驗器 異構性 配置 分布式數據采集 報警監控功能 數據存儲系統 可視化界面 操作管理 多數據源 功能獲取 公文模板 可管理性 可擴展性 實時獲取 數據結果 水平擴展 問題追蹤 郵件推送 高效性 數據源 中間件 屏蔽 部署 展示 統計 統一 維護 | ||
1.一種基于配置的分布式公文數據采集系統,包括配置校驗器、爬蟲任務處理器、數據存儲器,其特征在于:所述配置校驗器、爬蟲任務處理器、數據存儲器由上至下逐層部署,其中:
配置校驗器讀取配置文件,對讀取到的配置文件進行校驗,校驗通過則根據配置文件的配置項調用爬蟲任務處理器執行;
爬蟲任務處理器根據配置項生成任務列表,以預設周期對任務列表中的任務逐項執行,每項任務根據配置項的內容爬取數據并將爬取到的數據通過數據存儲器進行存儲,爬取數據過程中對爬取的數據進行模板匹配,爬取數據和模板匹配的過程與結果信息保存于詳情列表;
數據存儲器對所爬取的數據的數據格式進行解析,將文本數據以結構化方式存儲,將圖片數據和附件以非結構化方式存儲。
2.如權利要求1所述的基于配置的分布式公文數據采集系統,其特征在于:還包括任務監控模塊,任務監控模塊對任務列表的生成過程以及任務列表中每項任務的執行狀態進行監控。
3.如權利要求1所述的基于配置的分布式公文數據采集系統,其特征在于:還部署有REST服務模塊,REST服務模塊提供一次性的任務生成及調度。
4.如權利要求1所述的基于配置的分布式公文數據采集系統,其特征在于:所述數據存儲器中,對于非結構化方式存儲的數據,將指向數據路徑的字段以json方式存儲于文本數據。
5.如權利要求1所述的基于配置的分布式公文數據采集系統,其特征在于:所述數據存儲器為Redis。
6.如權利要求1所述的基于配置的分布式公文數據采集系統,其特征在于:所述配置文件的配置項至少包括待爬取網站信息、數據爬取任務信息和需要獲取的字段。
7.如權利要求6所述的基于配置的分布式公文數據采集系統,其特征在于:所述需要獲取的字段以xpath的方式進行配置。
8.如權利要求1所述的基于配置的分布式公文數據采集系統,其特征在于:所述配置校驗器進行校驗時,分別對待爬取網站信息和數據爬取任務信息進行校驗。
9.如權利要求1所述的基于配置的分布式公文數據采集系統,其特征在于:所述預設周期為20分鐘。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電科大數據研究院有限公司,未經中電科大數據研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910523201.2/1.html,轉載請聲明來源鉆瓜專利網。





