[發明專利]一種基于分布式數據的實時挖掘方法及裝置有效
| 申請號: | 201610166385.8 | 申請日: | 2016-03-22 |
| 公開(公告)號: | CN107220261B | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 秦曉飛;王峰;胡建強;茹志強;邢剛 | 申請(專利權)人: | 中國移動通信集團山西有限公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 蔣雅潔;張穎玲 |
| 地址: | 030032 山西*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分布式 數據 實時 挖掘 方法 裝置 | ||
本發明公開了一種基于分布式數據的實時挖掘方法及裝置,其中,所述方法包括:將集中的串行數據分解為可執行并行操作的數據;當所述可執行并行操作的數據累積達到預定數量時,按照基于內存的分布式算法進行數據建模,得到數據模型;根據所述數據模型和輔助數據進行處理,得到數據處理結果。
技術領域
本發明涉及挖掘技術,尤其涉及一種基于分布式數據的實時挖掘方法及裝置。
背景技術
現有的數據挖掘平臺,基本都是采用的客戶端/服務器即(C/S)架構,用一臺性能優秀的小型機作為服務器,普通PC做為客戶機。服務器的主要工作是做計算,包括抽取轉換加載(ETL,Extract-Transform-Load)、算法運算、打分等操作,客戶機主要是做初步的數據處理和展現功能。比較常見的做法是將1臺小型機劃出一個分區,包括CPU、內存和磁盤陣列,作為服務器,用普通的PC機或者筆記本做為客戶機。
這種模式在大數據時代遇到了很大的挑戰。首先,由于小型機價格昂貴,現在許多公司已經開始去IOE,很少購買小型機。所述去IOE指,用成本更加低廉的軟件——MYSQL替代Oracle數據庫,使用PC Server替代IBM小型機等設備。當前主流的做法是采用PC Server做服務器集群,小型機逐步被淘汰。數據挖掘平臺暫時還可以繼續使用利舊的處理能力較強的小型機,但從長遠看,這種模式遲早將面臨著無機可用的情況。
此外,現有的數據挖掘流程,還是采用跨行業數據挖掘標準流程(CRISP-DM,cross-industry standard process for data mining),分為業務理解、數據理解、數據準備、建模、評估和部署六個階段。整個過程是串行,前后依賴,只有完成了前一個階段,才能進入后一個階段。尤其是數據準備階段,往往需要較長時間,后續的建模處理就只能繼續等待,效率低下,尤其,面對目前大數據處理中的海量數據的處理來說,也是效率非常低下的,難以滿足數據實時處理的需求。
發明內容
有鑒于此,本發明實施例希望提供一種基于分布式數據的實時挖掘方法及裝置,至少解決了現有技術存在的問題。
本發明實施例的技術方案是這樣實現的:
本發明實施例的一種基于分布式數據的實時挖掘方法,所述方法包括:
將集中的串行數據分解為可執行并行操作的數據;
當所述可執行并行操作的數據累積達到預定數量時,按照基于內存的分布式算法進行數據建模,得到數據模型;
根據所述數據模型和輔助數據進行處理,得到數據處理結果。
上述方案中,所述數據模型為多個,進行所述數據建模得到第一數據模型后,將用于第X數據模型的數據作為所述輔助數據;
所述根據所述數據模型和輔助數據進行處理,包括:根據第一數據模型和對應第X數據模型生成的輔助數據進行處理。
上述方案中,所述將集中的串行數據分解為可執行并行操作的數據,包括:
通過部署在業務系統的接口實時監控接口變化,監控到新增數據時,立即進行數據抽取,將所有接口新增數據讀取出來,并傳入消息隊列集群;
讀取的數據在消息隊列集群中的消息隊列中進行緩存,以供流處理集群處理;
流處理集群讀取消息隊列中緩存的數據,進行包括規則過濾和實時轉換在內的數據處理,將處理結果存入存儲集群。
上述方案中,所述進行包括規則過濾和實時轉換在內的數據處理,包括:
根據預設規則進行實時清洗,所述實時清洗所針對的清洗對象為按照預設粒度對數據按條進行處理所得到的一條記錄或者一個字段;
實時清洗后,根據預設規則生成衍生字段,實現實時轉換。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團山西有限公司,未經中國移動通信集團山西有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610166385.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種頁面顯示的方法及裝置
- 下一篇:信息處理方法和裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





