[發(fā)明專利]一種基于分布式數(shù)據(jù)的實(shí)時(shí)挖掘方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201610166385.8 | 申請(qǐng)日: | 2016-03-22 |
| 公開(公告)號(hào): | CN107220261B | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計(jì))人: | 秦曉飛;王峰;胡建強(qiáng);茹志強(qiáng);邢剛 | 申請(qǐng)(專利權(quán))人: | 中國(guó)移動(dòng)通信集團(tuán)山西有限公司 |
| 主分類號(hào): | G06F16/27 | 分類號(hào): | G06F16/27 |
| 代理公司: | 北京派特恩知識(shí)產(chǎn)權(quán)代理有限公司 11270 | 代理人: | 蔣雅潔;張穎玲 |
| 地址: | 030032 山西*** | 國(guó)省代碼: | 山西;14 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分布式 數(shù)據(jù) 實(shí)時(shí) 挖掘 方法 裝置 | ||
1.一種基于分布式數(shù)據(jù)的實(shí)時(shí)挖掘方法,其特征在于,所述方法包括:
將集中的串行數(shù)據(jù)分解為可執(zhí)行并行操作的數(shù)據(jù);
當(dāng)所述可執(zhí)行并行操作的數(shù)據(jù)累積達(dá)到預(yù)定數(shù)量時(shí),按照基于內(nèi)存的分布式算法進(jìn)行數(shù)據(jù)建模,得到數(shù)據(jù)模型;
根據(jù)所述數(shù)據(jù)模型和輔助數(shù)據(jù)進(jìn)行處理,得到數(shù)據(jù)處理結(jié)果;
所述數(shù)據(jù)模型為多個(gè),進(jìn)行所述數(shù)據(jù)建模得到第一數(shù)據(jù)模型后,將用于第X數(shù)據(jù)模型的數(shù)據(jù)作為所述輔助數(shù)據(jù);所述根據(jù)所述數(shù)據(jù)模型和輔助數(shù)據(jù)進(jìn)行處理,包括:根據(jù)第一數(shù)據(jù)模型和對(duì)應(yīng)第X數(shù)據(jù)模型生成的輔助數(shù)據(jù)進(jìn)行處理。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將集中的串行數(shù)據(jù)分解為可執(zhí)行并行操作的數(shù)據(jù),包括:
通過部署在業(yè)務(wù)系統(tǒng)的接口實(shí)時(shí)監(jiān)控接口變化,監(jiān)控到新增數(shù)據(jù)時(shí),立即進(jìn)行數(shù)據(jù)抽取,將所有接口新增數(shù)據(jù)讀取出來(lái),并傳入消息隊(duì)列集群;
讀取的數(shù)據(jù)在消息隊(duì)列集群中的消息隊(duì)列中進(jìn)行緩存,以供流處理集群處理;
流處理集群讀取消息隊(duì)列中緩存的數(shù)據(jù),進(jìn)行包括規(guī)則過濾和實(shí)時(shí)轉(zhuǎn)換在內(nèi)的數(shù)據(jù)處理,將處理結(jié)果存入存儲(chǔ)集群。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述進(jìn)行包括規(guī)則過濾和實(shí)時(shí)轉(zhuǎn)換在內(nèi)的數(shù)據(jù)處理,包括:
根據(jù)預(yù)設(shè)規(guī)則進(jìn)行實(shí)時(shí)清洗,所述實(shí)時(shí)清洗所針對(duì)的清洗對(duì)象為按照預(yù)設(shè)粒度對(duì)數(shù)據(jù)按條進(jìn)行處理所得到的一條記錄或者一個(gè)字段;
實(shí)時(shí)清洗后,根據(jù)預(yù)設(shè)規(guī)則生成衍生字段,實(shí)現(xiàn)實(shí)時(shí)轉(zhuǎn)換。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將處理結(jié)果存入存儲(chǔ)集群,包括:
將處理結(jié)果保存為HBase/HDFS格式文件,存入內(nèi)存表中,或者,直接存入內(nèi)存中。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述當(dāng)所述可執(zhí)行并行操作的數(shù)據(jù)累積達(dá)到預(yù)定數(shù)量時(shí),按照基于內(nèi)存的分布式算法進(jìn)行數(shù)據(jù)建模,包括:
將基于內(nèi)存的分布式R算法與Spark平臺(tái)相結(jié)合,在Spark平臺(tái)中生成所述分布式R算法對(duì)應(yīng)的數(shù)據(jù)對(duì)象,得到SparkR的對(duì)象;
從所述存儲(chǔ)集群中讀出數(shù)據(jù)到SparkR存儲(chǔ);
劃分訓(xùn)練集和測(cè)試集;
調(diào)用決策樹算法的參數(shù)構(gòu)建數(shù)據(jù)模型,將所述處理結(jié)果轉(zhuǎn)化為dataframe分布式數(shù)據(jù)框格式。
6.一種基于分布式數(shù)據(jù)的實(shí)時(shí)挖掘裝置,其特征在于,所述裝置包括:
第一處理單元,用于將集中的串行數(shù)據(jù)分解為可執(zhí)行并行操作的數(shù)據(jù);
數(shù)據(jù)建模單元,用于當(dāng)所述可執(zhí)行并行操作的數(shù)據(jù)累積達(dá)到預(yù)定數(shù)量時(shí),按照基于內(nèi)存的分布式算法進(jìn)行數(shù)據(jù)建模,得到數(shù)據(jù)模型;
處理單元,用于根據(jù)所述數(shù)據(jù)模型和輔助數(shù)據(jù)進(jìn)行處理,得到數(shù)據(jù)處理結(jié)果;
所述數(shù)據(jù)模型為多個(gè),進(jìn)行所述數(shù)據(jù)建模得到第一數(shù)據(jù)模型后,將用于第X數(shù)據(jù)模型的數(shù)據(jù)作為所述輔助數(shù)據(jù);所述處理單元,進(jìn)一步用于根據(jù)第一數(shù)據(jù)模型和對(duì)應(yīng)第X數(shù)據(jù)模型生成的輔助數(shù)據(jù)進(jìn)行處理。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一處理單元,包括:
數(shù)據(jù)抽取集群,用于通過部署在業(yè)務(wù)系統(tǒng)的接口實(shí)時(shí)監(jiān)控接口變化,監(jiān)控到新增數(shù)據(jù)時(shí),立即進(jìn)行數(shù)據(jù)抽取,將所有接口新增數(shù)據(jù)讀取出來(lái),并傳入消息隊(duì)列集群;
消息隊(duì)列集群,用于將讀取的數(shù)據(jù)置入消息隊(duì)列中進(jìn)行緩存,以供流處理集群處理;
流處理集群,用于讀取消息隊(duì)列中緩存的數(shù)據(jù),進(jìn)行包括規(guī)則過濾和實(shí)時(shí)轉(zhuǎn)換在內(nèi)的數(shù)據(jù)處理,將處理結(jié)果存入存儲(chǔ)集群;
存儲(chǔ)集群,用于存儲(chǔ)所述處理結(jié)果。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述流處理集群,進(jìn)一步用于:
根據(jù)預(yù)設(shè)規(guī)則進(jìn)行實(shí)時(shí)清洗,所述實(shí)時(shí)清洗所針對(duì)的清洗對(duì)象為按照預(yù)設(shè)粒度對(duì)數(shù)據(jù)按條進(jìn)行處理所得到的一條記錄或者一個(gè)字段;
實(shí)時(shí)清洗后,根據(jù)預(yù)設(shè)規(guī)則生成衍生字段,實(shí)現(xiàn)實(shí)時(shí)轉(zhuǎn)換。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)移動(dòng)通信集團(tuán)山西有限公司,未經(jīng)中國(guó)移動(dòng)通信集團(tuán)山西有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610166385.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種頁(yè)面顯示的方法及裝置
- 下一篇:信息處理方法和裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 實(shí)時(shí)解碼系統(tǒng)與實(shí)時(shí)解碼方法
- 實(shí)時(shí)穩(wěn)定
- 實(shí)時(shí)監(jiān)控裝置、實(shí)時(shí)監(jiān)控系統(tǒng)以及實(shí)時(shí)監(jiān)控方法
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)或準(zhǔn)實(shí)時(shí)流傳輸
- 實(shí)時(shí)通信方法和實(shí)時(shí)通信系統(tǒng)
- 實(shí)時(shí)更新
- 實(shí)時(shí)內(nèi)核
- 用于通信網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)備及相關(guān)方法
- 實(shí)時(shí)量化方法及實(shí)時(shí)量化系統(tǒng)





