[發(fā)明專利]流式數(shù)據(jù)的分布式處理方法和裝置有效
| 申請?zhí)枺?/td> | 201610465909.3 | 申請日: | 2016-06-23 |
| 公開(公告)號: | CN106126643B | 公開(公告)日: | 2018-01-02 |
| 發(fā)明(設(shè)計)人: | 徐瑤;王聰;張云聰;張建偉;黃鑫 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權(quán)代理有限責(zé)任公司11204 | 代理人: | 王達(dá)佐,馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù) 分布式 處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本申請涉及計算機技術(shù)領(lǐng)域,具體涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及流式數(shù)據(jù)的分布式處理方法和裝置。
背景技術(shù)
隨著大數(shù)據(jù)量計算技術(shù)的發(fā)展,基于數(shù)據(jù)處理的應(yīng)用受到廣泛關(guān)注。數(shù)據(jù)源的結(jié)構(gòu)顯示出多樣化的趨勢,數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)中不僅有傳統(tǒng)的非實時的、靜態(tài)結(jié)構(gòu)化數(shù)據(jù),還有很多實時的、動態(tài)產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)流,從這類連續(xù)到達(dá)的非結(jié)構(gòu)化數(shù)據(jù)序列中獲取攜帶的重要信息,需要依靠分布式流式數(shù)據(jù)實時計算技術(shù)。
目前,常用的流式數(shù)據(jù)處理的框架包括Storm框架和Spark框架,分布式實時計算的表示層的高級封裝則有對應(yīng)的Storm原生接口以及彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets,RDD)。其中Storm原生接口的封裝程度較低,接口抽象程度較低,接口使用較為不便,實現(xiàn)時間窗口十分復(fù)雜,代碼可重用性較差;使用彈性分布式數(shù)據(jù)集接口則面臨強制指定以數(shù)據(jù)流入時間驅(qū)動時間窗口、不支持嵌套、無法復(fù)用代碼以及批處理和流式計算不能保證接口兼容等問題。
發(fā)明內(nèi)容
本申請的目的在于提出一種改進的流式數(shù)據(jù)的分布式處理方法和裝置,來解決以上背景技術(shù)部分提到的技術(shù)問題。
第一方面,本申請?zhí)峁┝艘环N流式數(shù)據(jù)的分布式處理方法,所述方法包括:將接收到的流式數(shù)據(jù)封裝為第一彈性分布式數(shù)據(jù)集;按照時間窗口對所述第一彈性分布式數(shù)據(jù)集執(zhí)行分組操作,所述分組操作包括:將所述第一彈性分布式數(shù)據(jù)集中的各個數(shù)據(jù)分別分入該數(shù)據(jù)所記載的時間戳所屬時間窗口所對應(yīng)的分組中,形成與各個時間窗口分別對應(yīng)的、包含有窮個數(shù)據(jù)的第二彈性分布式數(shù)據(jù)集;將各個第二彈性分布式數(shù)據(jù)集封裝成包含多個第二彈性分布式數(shù)據(jù)集的嵌套式數(shù)據(jù)集;使用預(yù)先定義的遍歷算子,依次將所述嵌套式數(shù)據(jù)集中的各個第二彈性分布式數(shù)據(jù)集傳遞給定義在有窮數(shù)據(jù)集上的批處理算子以執(zhí)行分布式數(shù)據(jù)處理。
在一些實施例中,所述將各個第二彈性分布式數(shù)據(jù)集進行封裝成包含多個第二彈性分布式數(shù)據(jù)集的嵌套式數(shù)據(jù)集,包括:將從各個時間窗口中選擇的時間點作為鍵以及將各個第二彈性分布式數(shù)據(jù)集作為值,封裝成以鍵值對形式存儲各個第二彈性分布式數(shù)據(jù)集的嵌套式數(shù)據(jù)集;以及所述依次將所述嵌套式數(shù)據(jù)集中的各個第二彈性分布式數(shù)據(jù)集傳遞給定義在有窮數(shù)據(jù)集上的批處理算子以執(zhí)行分布式數(shù)據(jù)處理,包括:依次將嵌套式數(shù)據(jù)集中作為值的各個第二彈性分布式數(shù)據(jù)集,依次傳遞給定義在有窮數(shù)據(jù)集上的批處理算子以執(zhí)行分布式數(shù)據(jù)處理。
在一些實施例中,所述將從各個時間窗口中選擇的時間點作為鍵以及將各個第二彈性分布式數(shù)據(jù)集作為值,封裝成以鍵值對存儲各個第二彈性分布式數(shù)據(jù)集的嵌套式數(shù)據(jù)集,包括:將鍵值對的鍵設(shè)置分別為各個時間窗口的起始時間點。
在一些實施例中,所述方法還包括:獲取用戶設(shè)置的步長時間,并將相鄰時間窗口的時間間隔的值設(shè)置為所述步長時間。
在一些實施例中,所述方法還包括:所述方法還包括:將各個時間窗口的時間長度的值設(shè)置為所述步長時間。
在一些實施例中,所述方法還包括:獲取用戶設(shè)置的步長數(shù),并將各個時間窗口的時間長度的值設(shè)置為所述步長數(shù)與所述步長時間的乘積。
第二方面,本申請?zhí)峁┝艘环N流式數(shù)據(jù)的分布式處理裝置,所述裝置包括:第一封裝單元,用于將接收到的流式數(shù)據(jù)封裝為第一彈性分布式數(shù)據(jù)集;分組單元,用于按照時間窗口對所述第一彈性分布式數(shù)據(jù)集執(zhí)行分組操作,所述分組操作包括:將所述第一彈性分布式數(shù)據(jù)集中的各個數(shù)據(jù)分別分入該數(shù)據(jù)所記載的時間戳所屬時間窗口所對應(yīng)的分組中,形成與各個時間窗口分別對應(yīng)的、包含有窮個數(shù)據(jù)的第二彈性分布式數(shù)據(jù)集;第二封裝單元,用于將各個第二彈性分布式數(shù)據(jù)集封裝成包含多個第二彈性分布式數(shù)據(jù)集的嵌套式數(shù)據(jù)集;執(zhí)行單元,用于使用預(yù)先定義的遍歷算子,依次將所述嵌套式數(shù)據(jù)集中的各個第二彈性分布式數(shù)據(jù)集傳遞給定義在有窮數(shù)據(jù)集上的批處理算子以執(zhí)行分布式數(shù)據(jù)處理。
在一些實施例中,所述第二封裝單元進一步用于:將從各個時間窗口中選擇的時間點作為鍵以及將各個第二彈性分布式數(shù)據(jù)集作為值,封裝成以鍵值對形式存儲各個第二彈性分布式數(shù)據(jù)集的嵌套式數(shù)據(jù)集;以及所述執(zhí)行單元進一步用于:依次將嵌套式數(shù)據(jù)集中作為值的各個第二彈性分布式數(shù)據(jù)集,依次傳遞給定義在有窮數(shù)據(jù)集上的批處理算子以執(zhí)行分布式數(shù)據(jù)處理。
在一些實施例中,所述執(zhí)行單元進一步用于:將鍵值對的鍵設(shè)置分別為各個時間窗口的起始時間點。
在一些實施例中,所述裝置還包括:窗口間隔設(shè)置單元,用于獲取用戶設(shè)置的步長時間,并將相鄰時間窗口的時間間隔的值設(shè)置為所述步長時間。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610465909.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





