[發(fā)明專利]一種基于Spark的大規(guī)模數(shù)據(jù)流分析方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202110711332.0 | 申請(qǐng)日: | 2021-06-25 |
| 公開(kāi)(公告)號(hào): | CN113434548B | 公開(kāi)(公告)日: | 2022-06-17 |
| 發(fā)明(設(shè)計(jì))人: | 計(jì)衛(wèi)星;張宗毓;景德江;王一拙;高玉金;石峰 | 申請(qǐng)(專利權(quán))人: | 北京理工大學(xué) |
| 主分類號(hào): | G06F16/2455 | 分類號(hào): | G06F16/2455;G06F16/2458;G06F9/54 |
| 代理公司: | 北京東方盛凡知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11562 | 代理人: | 張雪 |
| 地址: | 100081 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 spark 大規(guī)模 數(shù)據(jù)流 分析 方法 系統(tǒng) | ||
1.一種基于Spark的大規(guī)模數(shù)據(jù)流分析方法,其特征在于,包括以下步驟:
基于Spark構(gòu)建分布式計(jì)算框架,通過(guò)所述分布式計(jì)算框架對(duì)目標(biāo)代碼進(jìn)行分布式數(shù)據(jù)流分析,Master節(jié)點(diǎn)對(duì)所述目標(biāo)代碼進(jìn)行單機(jī)分析,創(chuàng)建過(guò)程間調(diào)用圖和過(guò)程內(nèi)控制流圖,其中,
所述分布式數(shù)據(jù)流分析,包括,
分布式過(guò)程內(nèi)預(yù)處理階段:將分布式數(shù)據(jù)集在計(jì)算節(jié)點(diǎn)的任務(wù)執(zhí)行器中并行地進(jìn)行所有函數(shù)的過(guò)程內(nèi)數(shù)據(jù)流計(jì)算;
分布式過(guò)程間數(shù)據(jù)整合階段:利用過(guò)程間調(diào)用信息迭代地更新過(guò)程內(nèi)現(xiàn)有的數(shù)據(jù)流狀態(tài),當(dāng)數(shù)據(jù)流狀態(tài)穩(wěn)定時(shí)停止迭代;
將所述分布式數(shù)據(jù)集分發(fā)到若干個(gè)所述計(jì)算節(jié)點(diǎn),并通過(guò)廣播方式,傳輸函數(shù)控制流圖集合到若干個(gè)所述計(jì)算節(jié)點(diǎn)的所述任務(wù)執(zhí)行器中并行計(jì)算;其中,在廣播的過(guò)程中,對(duì)所述分布式數(shù)據(jù)集進(jìn)行裁剪,舍棄與計(jì)算無(wú)關(guān)的部分;
在基于所述Spark構(gòu)建所述分布式計(jì)算框架的過(guò)程中,基于函數(shù)任務(wù)集合,構(gòu)建Spark的RDD;
在所述分布式過(guò)程間數(shù)據(jù)整合階段中,所述Master節(jié)點(diǎn)將計(jì)算任務(wù)委派給所述分布式計(jì)算框架的Slaves集群,所述分布式計(jì)算框架的Redis集群通過(guò)與所述Slaves集群進(jìn)行數(shù)據(jù)交互,獲得所述集群計(jì)算結(jié)果,其中,所述Master節(jié)點(diǎn)用于對(duì)所述分布式計(jì)算框架進(jìn)行全局控制,所述Slaves集群用于任務(wù)計(jì)算與結(jié)果返回,所述Redis集群用于通過(guò)在分布式環(huán)境中實(shí)現(xiàn)內(nèi)存的共享,實(shí)現(xiàn)整個(gè)計(jì)算集群的狀態(tài)一致。
2.根據(jù)權(quán)利要求1所述的一種基于Spark的大規(guī)模數(shù)據(jù)流分析方法,其特征在于,
在對(duì)所述目標(biāo)代碼進(jìn)行單機(jī)分析后,基于所述分布式數(shù)據(jù)流分析任務(wù)集合,通過(guò)對(duì)所述分布式過(guò)程的函數(shù)級(jí)別進(jìn)行任務(wù)劃分,構(gòu)建所述分布式數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述的一種基于Spark的大規(guī)模數(shù)據(jù)流分析方法,其特征在于,
在所述分布式環(huán)境中,對(duì)于中間數(shù)據(jù)流邊保存,使用基于內(nèi)存的分布式數(shù)據(jù)庫(kù)Redis作為緩存,所述分布式計(jì)算框架生成的數(shù)據(jù)流邊存儲(chǔ)到所述分布式數(shù)據(jù)庫(kù)Redis中。
4.一種基于Spark的大規(guī)模數(shù)據(jù)流分析系統(tǒng),其特征在于,包括,
數(shù)據(jù)采集模塊,用于獲得目標(biāo)代碼;通過(guò)Master節(jié)點(diǎn)單元對(duì)所述目標(biāo)代碼進(jìn)行單機(jī)分析,創(chuàng)建過(guò)程間調(diào)用圖和過(guò)程內(nèi)控制流圖;
數(shù)據(jù)處理模塊,用于通過(guò)構(gòu)建分布式計(jì)算框架,根據(jù)所述目標(biāo)代碼獲得分布式數(shù)據(jù)集;在構(gòu)建所述分布式計(jì)算框架的過(guò)程中,基于函數(shù)任務(wù)集合,構(gòu)建Spark的RDD;
所述數(shù)據(jù)處理模塊包括,
第一數(shù)據(jù)生成單元,用于獲得過(guò)程間調(diào)用圖;
第二數(shù)據(jù)生成單元,用于獲得過(guò)程內(nèi)控制流圖;
函數(shù)分割單元,用于基于所述過(guò)程間調(diào)用圖、所述過(guò)程內(nèi)控制流圖,通過(guò)對(duì)所述分布式過(guò)程中的函數(shù)級(jí)別進(jìn)行任務(wù)劃分,構(gòu)建所述分布式數(shù)據(jù)集;
廣播單元,用于將分布式過(guò)程內(nèi)控制流圖集合通過(guò)廣播方式進(jìn)行數(shù)據(jù)傳輸;
數(shù)據(jù)分析模塊,用于根據(jù)所述分布式數(shù)據(jù)集進(jìn)行并行分布式計(jì)算,獲得所述目標(biāo)代碼的數(shù)據(jù)流分析結(jié)果;所述分布式計(jì)算的過(guò)程包括:將所述分布式數(shù)據(jù)集分發(fā)到若干個(gè)計(jì)算節(jié)點(diǎn),并通過(guò)廣播方式,傳輸函數(shù)控制流圖集合到若干個(gè)所述計(jì)算節(jié)點(diǎn)的所述任務(wù)執(zhí)行器中并行計(jì)算;其中,在廣播的過(guò)程中,對(duì)所述分布式數(shù)據(jù)集進(jìn)行裁剪,舍棄與計(jì)算無(wú)關(guān)的部分;
所述數(shù)據(jù)分析模塊包括,
Master節(jié)點(diǎn)單元,用于對(duì)所述分布式計(jì)算框架進(jìn)行全局控制,
Slaves集群?jiǎn)卧?,用于所述分布式?jì)算框架的任務(wù)計(jì)算與結(jié)果返回,
Redis集群?jiǎn)卧糜谕ㄟ^(guò)在分布式環(huán)境中實(shí)現(xiàn)內(nèi)存的共享,實(shí)現(xiàn)整個(gè)計(jì)算集群的狀態(tài)一致;
所述Master節(jié)點(diǎn)單元將計(jì)算任務(wù)委派給所述分布式計(jì)算框架的Slaves集群?jiǎn)卧?,所述分布式?jì)算框架的Redis集群?jiǎn)卧ㄟ^(guò)與所述Slaves集群?jiǎn)卧M(jìn)行數(shù)據(jù)交互,獲得集群計(jì)算結(jié)果;
數(shù)據(jù)存儲(chǔ)模塊,用于存儲(chǔ)中間數(shù)據(jù)流分析結(jié)果;
數(shù)據(jù)顯示模塊,用于顯示所述數(shù)據(jù)流分析結(jié)果以及所述分布式計(jì)算進(jìn)度,其中,所述分布式計(jì)算進(jìn)度用于表示在分布式過(guò)程中,所述分布式數(shù)據(jù)集進(jìn)行分布計(jì)算的計(jì)算進(jìn)度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京理工大學(xué),未經(jīng)北京理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110711332.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種Spark平臺(tái)性能自動(dòng)優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡(luò)數(shù)據(jù)流識(shí)別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設(shè)備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語(yǔ)言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時(shí)分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)流類型識(shí)別模型更新方法及相關(guān)設(shè)備





