[發明專利]分布式RSS數據采集方法和系統在審
| 申請號: | 201810354384.5 | 申請日: | 2018-04-19 |
| 公開(公告)號: | CN108769115A | 公開(公告)日: | 2018-11-06 |
| 發明(設計)人: | 劉曉飛;汪立東;舒琦赟;王慧;俞曉明;趙忠華;劉悅;王卿;程學旗 | 申請(專利權)人: | 中國科學院計算技術研究所;國家計算機網絡與信息安全管理中心 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采集節點 調度模塊 采集 采集任務分配 注冊中心 拉取 網絡 采集系統 信息提供 保存 | ||
1.一種分布式RSS數據采集系統,其特征在于,包括:
分布于網絡的至少一個采集節點模塊,用于采集該網絡上的RSS數據;
注冊中心,用于保存所有該采集節點模塊的信息,并將該信息提供給該調度模塊;
調度模塊,用于根據該采集節點模塊的信息,將采集任務分配給該采集節點模塊。
2.如權利要求1所述的分布式RSS數據采集系統,其特征在于,該注冊中心具體包括:
注冊模塊,用于獲取、保存該信息以生成節點列表,并向該調度模塊提供該信息;
監聽模塊,用于監聽及響應所有請求,并將該請求交于該注冊模塊處理;該請求包括新增采集節點模塊加入請求、該信息更新請求和該調度模塊對該信息拉取請求;
交互模塊,用于與該采集節點模塊進行交互,以判斷該采集節點模塊的狀態,并將判斷為失效狀態的采集節點模塊的信息從該節點列表中刪除。
3.如權利要求1所述的分布式RSS數據采集系統,其特征在于,還包括:
消息隊列,用于存儲該采集節點模塊采集到的該RSS數據;
分析模塊,用于分析該消息隊列的該RSS數據以得到目標數據,以及更新該采集任務的任務調度屬性;
數據庫,用于持久化存儲該目標數據。
4.如權利要求1所述的分布式RSS數據采集系統,其特征在于,該采集節點模塊為運行采集器程序的服務器。
5.如權利要求1所述的分布式RSS數據采集系統,其特征在于,該信息包括該采集節點模塊的IP地址、存活信息、物理資源信息、資源使用信息和任務運行信息。
6.一種分布式RSS數據采集方法,通過如權利要求1~5任一項所述的分布式RSS數據采集系統采集網絡上的RSS數據,其特征在于,包括:
步驟1,通過注冊中心收集分布于網絡的采集節點模塊的信息;
步驟2,通過調度模塊拉取采集任務;
步驟3,通過該調度模塊拉取該采集節點的信息;
步驟4,根據該信息將該采集任務分配給該采集節點模塊;
步驟5,通過該采集節點模塊采集該網絡上的RSS數據并保存至消息隊列。
7.如權利要求6所述的分布式RSS數據采集方法,其特征在于,所述步驟1具體包括:
步驟11,監聽并響應所有請求,并將該請求交于該注冊中心進行處理;該請求包括新增采集節點模塊加入請求、該采集節點模塊的信息更新請求和該調度模塊對該信息的拉取請求;
步驟12,獲取、保存該信息以生成節點列表,并向該調度模塊提供該信息;
步驟13,與該采集節點模塊進行交互以判斷該采集節點模塊狀態,將失效的采集節點模塊的信息從該節點列表中刪除。
8.如權利要求6所述的分布式RSS數據采集方法,其特征在于,所述步驟4具體包括:
步驟41,設定預測更新時間TF和更新閾值Δt,則根據該采集任務包含的優先級、更新周期和上一次更新時間,將預測在TF-Δt和TF+Δt時間范圍內進行更新的該采集任務按該優先級從大到小排序以生成任務隊列;
步驟42,根據該信息包含的物理資源信息、資源使用信息和任務運行信息,獲取該采集節點模塊的CPU資源余量p和內存資源余量q,得到該采集節點模塊的剩余資源M,其中M=m*p+n*q,m、n為采集節點模塊CPU,內存影響因子權重,m>0,n>0;將該采集節點模塊按該剩余資源M從大到小排序;
步驟43,通過負載均衡算法將任務隊列的采集任務依次取出分配給該采集節點模塊,直到該任務隊列為空。
9.如權利要求6所述的分布式RSS數據采集方法,其特征在于,還包括:
步驟6,通過分析模塊對該RSS數據進行處理,得到目標數據;
步驟7,分析計算,更新采集任務調度屬性;
步驟8,將RSS采集到的數據持久化存儲至數據庫。
10.如權利要求9所述的RSS數據采集方法,其特征在于,所述步驟7具體包括:
步驟71,根據得到的目標數據分析采集任務屬性信息;目標數據包括該采集任務的更新次數N、平均更新時間T,以及最近三次該更新周期t1、t2、t3,其中t3為最近一次該更新周期;
步驟72,設定二次函數y=f(x)以滿足t1=f(1)、t2=f(2)、t3=f(3),得到t'=f(4),通過該更新參數得到T'=(T*N+t3)/(N+1),則獲取下一次更新周期t=a*T'+b*t',其中a、b為更新周期權重,a>0、b>0,且a+b=1。更新采集任務調度屬性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;國家計算機網絡與信息安全管理中心,未經中國科學院計算技術研究所;國家計算機網絡與信息安全管理中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810354384.5/1.html,轉載請聲明來源鉆瓜專利網。





