[發明專利]流數據與維表關聯方法及流計算裝置有效
| 申請號: | 201910472904.7 | 申請日: | 2019-05-31 |
| 公開(公告)號: | CN110232074B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 馬東 | 申請(專利權)人: | 新華三大數據技術有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 吳迪 |
| 地址: | 450000 河南省鄭州市高新技*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 關聯 方法 計算 裝置 | ||
本申請實施例提供一種流數據與維表關聯方法及流計算裝置,該裝置包括數據采集單元和多個處理單元,各處理單元分別與join key的不同值對應。每個處理單元的本地緩存存儲有預設維表的部分維表數據,該部分維表數據與該處理單元所對應的join key的至少一個值匹配。數據采集單元將獲得的數據流劃分為多個子流,并將每個子流發送給其join key的值對應的處理單元。處理單元根據子流的數據記錄的join key的值從本地緩存中匹配維表數據,若匹配到,則將所匹配到的維表數據與該數據記錄關聯。如此,可以通過較小的緩存空間實現維表數據的全量緩存,提高了join性能。
技術領域
本申請涉及大數據技術領域,具體而言,涉及一種流數據與維表關聯方法及流計算裝置。
背景技術
在流計算中,通常由數據采集單元從外部數據源采集數據流,并分發給處理單元進行處理和分析。然而,數據采集單元采集的數據往往比較有限,因此在進行分析前,需要將數據流與維表中的數據進行關聯(join,又稱“連接”),以獲得相對完整的數據。
相關技術中,通常由數據采集單元獲取維表的全量數據并保存到緩存數據庫中,當數據流到達任一處理單元時,該處理單元先從對應的本地緩存中查詢與數據流的joinkey匹配的維表數據記錄,如果沒有查詢到,則從緩存數據庫中查詢與數據流的join key匹配的維表數據記錄,將查詢到的維表數據記錄與數據流進行join,并將查詢到的維表數據記錄拉取到該處理單元對應的本地緩存保存。
但是,本地緩存的容量是有限的,當維表體量很大時,本地緩存存儲的維表數據記錄相較于整個維表數據非常少,處理單元仍將大量地訪問緩存數據庫,一方面導致join性能降低,另一方面可能導致緩存數據庫癱瘓。
發明內容
為了至少部分地克服現有技術中的上述不足,本申請的目的之一在于提供一種流數據與維表關聯方法,應用于基于流式計算框架的流計算裝置,所述流計算裝置包括數據采集單元和多個處理單元,所述多個處理單元分別與關聯鍵join key的不同值對應,每個處理單元具有本地緩存;所述方法包括:
所述數據采集單元獲得數據流,根據所述數據流中的各數據記錄各自包含的joinkey的值將所述數據流劃分為多個子流,并將每個子流發送給與該子流的join key的值對應的處理單元;
接收到所述子流的處理單元從本地緩存中查找是否存在與所述子流中的數據記錄的join key的值匹配的維表數據;其中,該處理單元的本地緩存存儲有預設維表中的部分維表數據,該部分維表數據與該處理單元所對應的join key的至少一個值匹配;
若存在與所述子流中的數據記錄的join key的所述值匹配的維表數據,則將所述匹配的維表數據和所述子流中的所述數據記錄相關聯。
本申請的另一目的在于提供一種流計算裝置,基于流式計算框架,該流計算裝置包括數據采集單元和多個處理單元,所述多個處理單元分別與關聯鍵join key的不同值對應,每個處理單元具有本地緩存;
所述數據采集單元,用于獲得數據流,根據所述數據流中的多條數據記錄各自包含的join key的值將所述數據流劃分為多個子流,并將每個子流發送給與該子流的joinkey的值對應的處理單元;
接收到所述子流的處理單元,用于:從本地緩存中查找是否存在與所述子流中的數據記錄的join key的值匹配的維表數據;其中,該處理單元的本地緩存存儲有預設維表中的部分維表數據,該部分維表數據與該處理單元所對應的join key的至少一個值匹配;若存在與所述子流中的數據記錄的join key的所述值匹配的維表數據,則將所述匹配的維表數據和所述子流中的所述數據記錄相關聯。
相對于現有技術而言,本申請實施例具有以下有益效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數據技術有限公司,未經新華三大數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910472904.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據處理分析系統及方法
- 下一篇:一種查詢區塊鏈上評論數據的方法及其設備
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





