[發明專利]一種數據流挖掘方法在審
| 申請號: | 201611208516.0 | 申請日: | 2016-12-23 |
| 公開(公告)號: | CN108241644A | 公開(公告)日: | 2018-07-03 |
| 發明(設計)人: | 唐德可;宋才秀;任麗君 | 申請(專利權)人: | 航天星圖科技(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 101399 北京市順義區國*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 歷史數據文件 實時數據流 數據流挖掘 數據流 計算節點 實時處理 數據文件 細粒度管理 時序 分配 | ||
本發明提供一種數據流挖掘方法,將數據流進行時序劃分為實時數據流、近期數據文件和歷史數據文件,根據計算節點的實時處理能力相應的分別分配上述實時數據流、近期數據文件和歷史數據文件,根據計算節點的實時處理能力實現數據流的細粒度管理。
【技術領域】
本發明屬于數據流處理領域,尤其涉及數據流挖掘方法。
【背景技術】
現有技術中對日志進行實時分析可以把握系統的當前狀態并進行實時響應,目前對海量日志數據流進行分布式實時流處理的方式為:首先實時接收一批數據流,并將該數據流采用分布式分發的方式下發到多個處理單元,每個處理單元接收分發的一個或多個數據流并進行實時分析處理,處理完的數據流進行整合輸出。
但是,現有的數據流分布式并行處理方式在任務劃分時沒有精細化地考慮到各個計算節點的實時處理能力,會造成有些計算節點當前的實時計算能力較低不適合進行日志數據流的實時處理,無法實現細粒度的并行管理。
基于上述問題,現在亟需一種新的數據流挖掘方法,根據將數據流進行時序劃分為實時數據流、近期數據文件和歷史數據文件,根據計算節點的實時處理能力相應的分別分配上述實時數據流、近期數據文件和歷史數據文件,根據計算節點的實時處理能力實現數據流的細粒度管理。
【發明內容】
為了解決現有技術中的上述問題,本發明提出了一種數據流挖掘方法。
本發明采用的技術方案如下:
一種數據流挖掘方法,其特征在于,該方法包括如下步驟:
(1)接收數據流,并對數據流進行時序分組,時序分組后將日志數據流分為實時數據流、近期數據文件和歷史數據文件;
(2)從多個計算節點中選擇實時計算能力排序高的計算節點作為實時數據流計算節點,選擇用于處理近期數據文件和歷史數據文件的近期數據文件計算節點和歷史數據文件計算節點;
(3)將實時數據流、近期數據文件和歷史數據文件任務分配給實時數據流計算節點、近期數據文件計算節點和歷史數據文件計算節點;
(4)實時數據流計算節點、近期數據文件計算節點和歷史數據文件計算節點分別進行相應挖掘任務的處理;
(5)對上述處理結果進行整合并輸出。
本發明的有益效果包括:根據將數據流進行時序劃分為實時數據流、近期數據文件和歷史數據文件,根據計算節點的實時處理能力相應的分別分配上述實時數據流、近期數據文件和歷史數據文件,根據計算節點的實時處理能力實現數據流的細粒度管理。
【附圖說明】
此處所說明的附圖是用來提供對本發明的進一步理解,構成本申請的一部分,但并不構成對本發明的不當限定,在附圖中:
圖1是本發明多節點數據處理系統的框架圖;
圖2是本發明數據流挖掘方法的流程圖。
【具體實施方式】
下面將結合附圖以及具體實施例來詳細說明本發明,其中的示意性實施例以及說明僅用來解釋本發明,但并不作為對本發明的限定。
參見附圖1,一種數據流挖掘方法用于多節點數據流處理系統中,所述系統包括一個主控節點和多個計算節點,其中所述主控節點用于根據接收到的數據流向各個計算節點分配任務,各個計算節點用于對所接收到的分配任務并行地進行計算。在一個實施方式,所述多節點處于分布式系統中,或多節點處于云系統中。
實施例1,參見附圖2,一種數據流挖掘方法,該方法包括如下步驟:
(1)接收數據流,并對數據流進行時序分組,時序分組后將日志數據流分為實時數據流、近期數據文件和歷史數據文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天星圖科技(北京)有限公司,未經航天星圖科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611208516.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:關鍵詞的指標數據分析方法及裝置
- 下一篇:圖像處理方法及裝置





