[發明專利]一種挖掘數據的前期準備方法在審
| 申請號: | 201611097402.3 | 申請日: | 2016-12-02 |
| 公開(公告)號: | CN108153748A | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 安西民;林殷;朱巧霞 | 申請(專利權)人: | 航天星圖科技(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50 |
| 代理公司: | 北京安博達知識產權代理有限公司 11271 | 代理人: | 徐國文 |
| 地址: | 101399 北京市順義區國*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 控制節點 數據準備 計算節點 數據挖掘 系統處理 運行負載 挖掘 | ||
本發明涉及一種挖掘數據的前期準備方法,選擇一個計算節點充當數據準備節點,將數據挖掘的前期數據準備工作從控制節點中分離出來,減輕控制節點的運行負載,加快系統處理速度。
【技術領域】
本發明屬于數據清洗領域,尤其涉及挖掘數據的前期準備方法。
【背景技術】
數據挖掘是計算系統通常可以提供的外部服務,現有技術中對于多個節點的系統而言,數據挖掘服務通常是由控制節點提供,由于數據挖掘服務前期的數據準備要耗費比較多的時間,控制節點進行數據清洗工作必然會占用其相當的計算資源,由于控制節點還要進行任務的調度、分配和資源控制等,因此加重了控制節點的處理負載,對控制節點的硬件配置要求很高,如果控制節點配置達不到運行負載要求,則容易導致控制節點死機、系統癱瘓。
基于上述問題,現在亟需一種新的挖掘數據的前期準備方法,減輕控制節點的運行負載,加快系統處理速度。
【發明內容】
為了解決現有技術中的上述問題,本發明提出了一種挖掘數據的前期準備方法。
本發明采用的技術方案如下:
1.一種挖掘數據的前期準備方法,其特征在于,該方法包括如下步驟:
(1)當控制節點接收到數據挖掘服務請求時,從多個計算節點中選擇一個計算節點作為數據準備節點;
(2)所述數據準備節點從控制節點接收數據準備線程保存在本地,其中數據清洗線程由多個數據準備組件來實現;
(3)所述數據準備節點可以選擇不同的數據準備組件進行組合構成數據準備線程并運行,分別實現不同功能的數據準備。
本發明的有益效果包括:將數據挖掘的前期準備工作負載從控制節點中分離出來,減輕控制節點的運行負載,加快系統處理速度。
【附圖說明】
此處所說明的附圖是用來提供對本發明的進一步理解,構成本申請的一部分,但并不構成對本發明的不當限定,在附圖中:
圖1是本發明系統的結構圖。
圖2是本發明挖掘數據的前期準備方法的流程圖。
【具體實施方式】
下面將結合附圖以及具體實施例來詳細說明本發明,其中的示意性實施例以及說明僅用來解釋本發明,但并不作為對本發明的限定。
參見附圖1,是本發明所應用的系統,該系統包括一個控制節點和多個計算節點。
參見附圖2,一種挖掘數據的前期準備方法,該方法包括如下步驟:
(1)將系統中的節點按照性能劃分為多個計算節點和一個控制節點,控制節點中存儲有調度線程、負載監控線程、數據清洗線程和數據挖掘線程,其中控制節點負責系統中的任務調度、各個計算節點的負載監控以及對外提供服務,在一個實施方式中,所述服務包括數據挖掘服務,在其他實施方式中,還可以包括其他對外服務;
(2)控制節點中的負載監控線程對各個計算節點的運行負載進行實時監控;
(3)當控制節點接收到數據挖掘服務請求時,上述負載監控線程對各個計算節點當前負載運行狀態的實時監測數據進行分析和比較,選擇其中最低運行負載的計算節點作為數據挖掘前期準備工作的處理節點,在本發明實施方式中為數據清洗節點,在一個實施方式中,假如有1個控制節點和5個計算節點,各個計算節點當前運行任務所分別占用的系統資源是60%,65%,70%,75%,80%,則選擇最低運行負載60%的計算節點作為數據清洗節點;控制節點將其存儲的數據清洗線程和所監測的上述數據清洗節點的當前負載運行狀態(60%)傳送給上述數據清洗節點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天星圖科技(北京)有限公司,未經航天星圖科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611097402.3/2.html,轉載請聲明來源鉆瓜專利網。





