[發(fā)明專(zhuān)利]基于DAG交互的流式計(jì)算方法與裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010622403.5 | 申請(qǐng)日: | 2020-06-30 |
| 公開(kāi)(公告)號(hào): | CN111782371A | 公開(kāi)(公告)日: | 2020-10-16 |
| 發(fā)明(設(shè)計(jì))人: | 陳偉旭;葉青 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類(lèi)號(hào): | G06F9/48 | 分類(lèi)號(hào): | G06F9/48;G06F9/50;G06F9/54 |
| 代理公司: | 北京市漢坤律師事務(wù)所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 dag 交互 計(jì)算方法 裝置 | ||
本公開(kāi)涉及一種基于DAG交互的流式計(jì)算方法與裝置,涉及數(shù)據(jù)處理與云計(jì)算領(lǐng)域。一種基于有向無(wú)環(huán)圖DAG交互的流式計(jì)算方法包括:根據(jù)由屬于第一類(lèi)型集合的DAG節(jié)點(diǎn)組成的第一DAG節(jié)點(diǎn)圖,生成第一DAG作業(yè)流描述信息;通過(guò)將屬于第一類(lèi)型集合的DAG節(jié)點(diǎn)適配成適于Flink引擎的屬于第二類(lèi)型集合的DAG節(jié)點(diǎn),將第一DAG作業(yè)流描述信息轉(zhuǎn)換為第二DAG作業(yè)流描述信息;將第二DAG作業(yè)流描述信息封裝為DAG執(zhí)行包,DAG執(zhí)行包包括第二DAG作業(yè)流描述信息和第二DAG作業(yè)流描述信息中的節(jié)點(diǎn)的運(yùn)算邏輯;以及將DAG執(zhí)行包發(fā)送到作業(yè)運(yùn)行集群。
技術(shù)領(lǐng)域
本公開(kāi)涉及數(shù)據(jù)處理與云計(jì)算,具體地,涉及一種基于DAG交互的流式計(jì)算方法與裝置。
背景技術(shù)
流式計(jì)算是一種不同于批量計(jì)算的計(jì)算方式,它可以很好的對(duì)大規(guī)模連續(xù)數(shù)據(jù)在不斷變化的運(yùn)動(dòng)過(guò)程中實(shí)時(shí)的進(jìn)行分析,提取有用的信息,并將計(jì)算結(jié)果迅速的傳遞給下游節(jié)點(diǎn)。用戶(hù)通過(guò)配置批間隔(batch interval)、檢查點(diǎn)(checkpoint)等信息,通過(guò)拖拽的方式組成作業(yè)流執(zhí)行的DAG后,借助SparkStreaming微批(microbatch)的思想處理DAG圖,使之轉(zhuǎn)化為可執(zhí)行的程序邏輯,之后提交到計(jì)算集群執(zhí)行。此外,在當(dāng)前的實(shí)時(shí)作業(yè)流計(jì)算方案中,DAG中的每個(gè)節(jié)點(diǎn)采用分散式管理,即每一個(gè)節(jié)點(diǎn)都包含自己的封裝邏輯,通過(guò)節(jié)點(diǎn)描述的字段信息進(jìn)行區(qū)分。
然而,隨著數(shù)據(jù)量的增加和日益增加的計(jì)算精度和實(shí)時(shí)度需求,這樣的配置逐漸產(chǎn)生了問(wèn)題。一方面,由于SparkStreaming將流視為批的特例以及其依賴(lài)于時(shí)間間隔的底層邏輯,SparkStreaming實(shí)際上是一個(gè)近實(shí)時(shí)的計(jì)算框架。雖然可以解決一部分的流式計(jì)算業(yè)務(wù),但是對(duì)于某些數(shù)據(jù)量大、對(duì)實(shí)時(shí)性和精度要求高的計(jì)算場(chǎng)景,例如event level的場(chǎng)景和有狀態(tài)的計(jì)算場(chǎng)景下,SparkStreaming的計(jì)算精度和性能就會(huì)有所下降,以及對(duì)于計(jì)算在多個(gè)機(jī)器上分布、數(shù)據(jù)傳輸存在延時(shí)的場(chǎng)景,SparkStreaming的運(yùn)行場(chǎng)景無(wú)法滿(mǎn)足客戶(hù)的需求。另一方面,DAG中每個(gè)節(jié)點(diǎn)的程序都封裝在不同的計(jì)算邏輯中,因此在復(fù)雜的業(yè)務(wù)邏輯中,作業(yè)流及其節(jié)點(diǎn)的初始化和相關(guān)類(lèi)加載勢(shì)必會(huì)帶來(lái)較大的網(wǎng)絡(luò)和時(shí)間開(kāi)銷(xiāo),影響系統(tǒng)性能。
發(fā)明內(nèi)容
根據(jù)本公開(kāi)的一方面,提供一種基于有向無(wú)環(huán)圖DAG交互的流式計(jì)算方法,包括:根據(jù)由屬于第一類(lèi)型集合的DAG節(jié)點(diǎn)組成的第一DAG節(jié)點(diǎn)圖,生成第一DAG作業(yè)流描述信息;通過(guò)將屬于第一類(lèi)型集合的DAG節(jié)點(diǎn)適配成適于Flink引擎的屬于第二類(lèi)型集合的DAG節(jié)點(diǎn),將所述第一DAG作業(yè)流描述信息轉(zhuǎn)換為第二DAG作業(yè)流描述信息;將所述第二DAG作業(yè)流描述信息封裝為DAG執(zhí)行包,所述DAG執(zhí)行包包括第二DAG作業(yè)流描述信息和第二DAG作業(yè)流描述信息中的節(jié)點(diǎn)的運(yùn)算邏輯;以及將所述DAG執(zhí)行包發(fā)送到作業(yè)運(yùn)行集群。
根據(jù)本公開(kāi)的另一方面,還提供一種基于有向無(wú)環(huán)圖DAG交互的流式計(jì)算裝置,其特征在于,包括:作業(yè)生成單元,被配置成根據(jù)由屬于第一類(lèi)型集合的DAG節(jié)點(diǎn)組成的第一DAG節(jié)點(diǎn)圖,生成第一DAG作業(yè)流描述信息;作業(yè)處理單元,被配置成通過(guò)將屬于第一類(lèi)型集合的DAG節(jié)點(diǎn)適配成適于Flink引擎的屬于第二類(lèi)型集合的DAG節(jié)點(diǎn),將所述第一DAG作業(yè)流描述信息轉(zhuǎn)換為第二DAG作業(yè)流描述信息;以及作業(yè)提交單元,被配置成將所述第二DAG作業(yè)流描述信息封裝為DAG執(zhí)行包,并且將所述DAG執(zhí)行包發(fā)送到作業(yè)運(yùn)行集群,其中,所述DAG執(zhí)行包包括第二DAG作業(yè)流描述信息和第二DAG作業(yè)流描述信息中的節(jié)點(diǎn)的運(yùn)算邏輯。
根據(jù)本公開(kāi)的另一方面,還提供一種電子設(shè)備,包括:處理器;以及存儲(chǔ)程序的存儲(chǔ)器,所述程序包括指令,所述指令在由所述處理器執(zhí)行時(shí)使所述處理器執(zhí)行根據(jù)上述的基于有向無(wú)環(huán)圖DAG交互的流式計(jì)算方法。
根據(jù)本公開(kāi)的另一方面,還提供一種存儲(chǔ)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述程序包括指令,所述指令在由電子設(shè)備的處理器執(zhí)行時(shí),致使所述電子設(shè)備執(zhí)行根據(jù)上述的流式計(jì)算方法。
根據(jù)本公開(kāi)的一個(gè)方面,基于有向無(wú)環(huán)圖DAG交互的流式計(jì)算方法能夠改善流式計(jì)算的處理效率。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010622403.5/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 動(dòng)態(tài)有向無(wú)環(huán)圖(DAG)拓?fù)浣Y(jié)構(gòu)報(bào)告
- 遠(yuǎn)程縫合的有向非循環(huán)圖
- 一種共享數(shù)據(jù)的處理方法、裝置及服務(wù)器
- 一種采用圖形化的開(kāi)發(fā)的方法、介質(zhì)、設(shè)備和裝置
- 節(jié)點(diǎn)的合并調(diào)度方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 順序計(jì)算DAG的異構(gòu)調(diào)度
- 基于DAG交互的流式計(jì)算方法與裝置
- 一種流式處理方法及裝置
- 基于動(dòng)態(tài)規(guī)劃的有向無(wú)環(huán)圖比對(duì)方法、模塊及系統(tǒng)
- 一種可視化DAG工作流任務(wù)調(diào)度系統(tǒng)及其運(yùn)行方法
- 電網(wǎng)理論線(xiàn)損的計(jì)算方法和系統(tǒng)
- 一種基于XML的小衛(wèi)星遙測(cè)參數(shù)衍生計(jì)算方法
- 一種基于多尺度耦合的并行進(jìn)程合并方法及系統(tǒng)
- 一種注采井網(wǎng)流場(chǎng)速度的快速計(jì)算方法
- 一種自適應(yīng)實(shí)時(shí)火星系統(tǒng)星歷計(jì)算方法
- 基于分類(lèi)模型的合同費(fèi)用計(jì)算方法、裝置及計(jì)算機(jī)設(shè)備
- 一種超越函數(shù)計(jì)算方法及裝置
- 計(jì)算方法決定系統(tǒng)、計(jì)算方法決定方法、記錄介質(zhì)
- 一種混合湍流計(jì)算方法
- 一種基于芯片檢測(cè)的HRD評(píng)分計(jì)算方法





