[發明專利]一種數據流挖掘方法在審

申請號：	201611208516.0	申請日：	2016-12-23
公開（公告）號：	CN108241644A	公開（公告）日：	2018-07-03
發明（設計）人：	唐德可;宋才秀;任麗君	申請（專利權）人：	航天星圖科技（北京）有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京安博達知識產權代理有限公司 11271	代理人：	徐國文
地址：	101399 北京市順義區國***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	歷史數據文件實時數據流數據流挖掘數據流計算節點實時處理數據文件細粒度管理時序分配
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種數據流挖掘方法，將數據流進行時序劃分為實時數據流、近期數據文件和歷史數據文件，根據計算節點的實時處理能力相應的分別分配上述實時數據流、近期數據文件和歷史數據文件，根據計算節點的實時處理能力實現數據流的細粒度管理。

【技術領域】

本發明屬于數據流處理領域，尤其涉及數據流挖掘方法。

【背景技術】

現有技術中對日志進行實時分析可以把握系統的當前狀態并進行實時響應，目前對海量日志數據流進行分布式實時流處理的方式為：首先實時接收一批數據流，并將該數據流采用分布式分發的方式下發到多個處理單元，每個處理單元接收分發的一個或多個數據流并進行實時分析處理，處理完的數據流進行整合輸出。

但是，現有的數據流分布式并行處理方式在任務劃分時沒有精細化地考慮到各個計算節點的實時處理能力，會造成有些計算節點當前的實時計算能力較低不適合進行日志數據流的實時處理，無法實現細粒度的并行管理。

基于上述問題，現在亟需一種新的數據流挖掘方法，根據將數據流進行時序劃分為實時數據流、近期數據文件和歷史數據文件，根據計算節點的實時處理能力相應的分別分配上述實時數據流、近期數據文件和歷史數據文件，根據計算節點的實時處理能力實現數據流的細粒度管理。

【發明內容】

為了解決現有技術中的上述問題，本發明提出了一種數據流挖掘方法。

本發明采用的技術方案如下：

一種數據流挖掘方法，其特征在于，該方法包括如下步驟：

(1)接收數據流，并對數據流進行時序分組，時序分組后將日志數據流分為實時數據流、近期數據文件和歷史數據文件；

(2)從多個計算節點中選擇實時計算能力排序高的計算節點作為實時數據流計算節點，選擇用于處理近期數據文件和歷史數據文件的近期數據文件計算節點和歷史數據文件計算節點；

(3)將實時數據流、近期數據文件和歷史數據文件任務分配給實時數據流計算節點、近期數據文件計算節點和歷史數據文件計算節點；

(4)實時數據流計算節點、近期數據文件計算節點和歷史數據文件計算節點分別進行相應挖掘任務的處理；

(5)對上述處理結果進行整合并輸出。

本發明的有益效果包括：根據將數據流進行時序劃分為實時數據流、近期數據文件和歷史數據文件，根據計算節點的實時處理能力相應的分別分配上述實時數據流、近期數據文件和歷史數據文件，根據計算節點的實時處理能力實現數據流的細粒度管理。

【附圖說明】

此處所說明的附圖是用來提供對本發明的進一步理解，構成本申請的一部分，但并不構成對本發明的不當限定，在附圖中：

圖1是本發明多節點數據處理系統的框架圖；

圖2是本發明數據流挖掘方法的流程圖。

【具體實施方式】

下面將結合附圖以及具體實施例來詳細說明本發明，其中的示意性實施例以及說明僅用來解釋本發明，但并不作為對本發明的限定。

參見附圖1，一種數據流挖掘方法用于多節點數據流處理系統中，所述系統包括一個主控節點和多個計算節點，其中所述主控節點用于根據接收到的數據流向各個計算節點分配任務，各個計算節點用于對所接收到的分配任務并行地進行計算。在一個實施方式，所述多節點處于分布式系統中，或多節點處于云系統中。

實施例1，參見附圖2，一種數據流挖掘方法，該方法包括如下步驟：

(1)接收數據流，并對數據流進行時序分組，時序分組后將日志數據流分為實時數據流、近期數據文件和歷史數據文件；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于航天星圖科技（北京）有限公司，未經航天星圖科技（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611208516.0/2.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載