[發明專利]分布式RSS數據采集方法和系統在審
| 申請號: | 201810354384.5 | 申請日: | 2018-04-19 |
| 公開(公告)號: | CN108769115A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 劉曉飛;汪立東;舒琦赟;王慧;俞曉明;趙忠華;劉悅;王卿;程學旗 | 申請(專利權)人: | 中國科學院計算技術研究所;國家計算機網絡與信息安全管理中心 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采集節點 調度模塊 采集 采集任務分配 注冊中心 拉取 網絡 采集系統 信息提供 保存 | ||
本發明涉及一種分布式RSS數據采集系統,包括:分布于網絡的至少一個采集節點模塊,用于采集該網絡上的RSS數據;注冊中心,用于保存所有該采集節點模塊的信息,并將該信息提供給該調度模塊;調度模塊,用于根據該信息將采集任務分配給該采集節點模塊。分布式RSS數據采集方法包括:通過注冊中心收集分布于網絡的采集節點模塊的信息;通過調度模塊拉取采集任務;通過該調度模塊拉取該信息;根據該信息將該采集任務分配給該采集節點模塊;采集該網絡上的RSS數據。
技術領域
本發明涉及網絡數據采集和分布式系統管理領域,特別涉及一種分布式 RSS數據采集方法和系統。
背景技術
自媒體時代,網絡信息的發布與更新速顯著增快,導致使用搜索引擎進行信息的實時更新獲取變得越來越困難。對于諸如新聞等頻繁更新的數據源,使用搜索引擎更是難以企及它的更新速度。如何應對這些快速的數據更新,是網絡監控部門亟待解決的重要問題。簡易信息聚合(RSS,Really Simple Syndication)以其結構化特點,在全球廣域網(Web,WorldWide Web)應用中越來越受到青睞,它使得網絡信息更加結構化。目前RSS已被廣泛地應用在新聞網站。RSS的結構化特點使得網絡爬蟲可以通過跟蹤RSS頁面的更新并及時捕獲更新信息,為解決實時更新的數據獲取提供了一條可行的思路。也因此針對RSS的采集技術也如雨后春筍般層出不窮。
然而在為數眾多的RSS數據采集技術中,還沒有關于大規模,具有可擴展性的RSS數據采集技術,RSS數據采集的采集規模由此受限。
發明內容
針對上述問題,本發明提出一種分布式RSS數據采集系統,包括:分布于網絡的至少一個采集節點模塊,用于采集該網絡上的RSS數據;注冊中心,用于保存所有該采集節點模塊的信息,并將該信息提供給該調度模塊;調度模塊,用于根據該信息,將采集任務分配給該采集節點模塊;消息隊列,用于用于存儲該采集節點模塊采集到的該RSS數據;分析模塊,用于分析該RSS數據以得到目標數據,以及更新該采集任務的采集任務調度屬性;數據庫,用于持久化存儲該目標數據。
本發明所述的分布式RSS數據采集系統,其中該注冊中心具體包括:注冊模塊,用于獲取、保存該采集節點模塊信息以生成節點列表,并向該調度模塊提供該采集節點模塊信息;監聽模塊,用于監聽及響應所有請求,并將該請求交于該注冊模塊處理;該請求包括新增采集節點模塊加入請求、該采集節點模塊信息更新請求和該調度模塊對該信息拉取請求;交互模塊,用于與該采集節點模塊進行交互,以判斷該采集節點模塊的狀態,并將判斷為失效狀態的采集節點模塊的信息從該節點列表中刪除。
本發明所述的分布式RSS數據采集系統,其中該采集節點模塊為運行采集器程序的服務器。
本發明所述的分布式RSS數據采集系統,其中該信息包括該采集節點模塊的IP地址、存活信息、物理信息、資源使用信息和任務運行信息。
本發明還涉及一種分布式RSS數據采集方法,包括:
步驟1,通過注冊中心收集分布于網絡的采集節點模塊信息;
步驟2,通過調度模塊拉取采集任務;
步驟3,通過該調度模塊拉取該信息;
步驟4,根據該信息將該采集任務分配給該采集節點模塊;
步驟5,通過該采集節點模塊采集該網絡上的RSS數據并保存至消息隊列;
步驟6,通過分析模塊對該RSS數據進行處理;
步驟7,更新該任務的采集任務調度屬性;
步驟8,將該目標數據持久化存儲至數據庫。
本發明所述的分布式RSS數據采集方法,其中所述步驟1具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;國家計算機網絡與信息安全管理中心,未經中國科學院計算技術研究所;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810354384.5/2.html,轉載請聲明來源鉆瓜專利網。





