日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種數據表關聯方法和裝置在審

專利信息
申請號: 201610480216.1 申請日: 2016-06-27
公開(公告)號: CN106874322A 公開(公告)日: 2017-06-20
發明(設計)人: 康樹鵬 申請(專利權)人: 阿里巴巴集團控股有限公司
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京博思佳知識產權代理有限公司11415 代理人: 靳玫,林祥
地址: 英屬開曼群島大開*** 國省代碼: 暫無信息
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 數據表 關聯 方法 裝置
【說明書】:

技術領域

發明涉及數據處理技術,特別涉及一種數據表關聯方法和裝置。

背景技術

在數據倉庫進行數據清洗時,其中一種常用的清洗方式是數據表和數據表之間的關聯,這種數據倉庫中的數據表之間的關聯可以稱為join操作。參與join的數據表中通常具有相同的關聯鍵(數據表之間關聯時使用的連接字段),如果將關聯鍵稱為key,例如,其中一個數據表中存儲該key與信息A的對應關系,另一個數據表中存儲該Key與信息B的對應關系,在兩者join時,可以根據關聯鍵key,將對應相同key的信息A和信息B組合在一張新數據表中,該新數據表可以包含該key與對應的信息A、信息B。

在join的過程中經常出現的一種情況是數據傾斜,數據傾斜即:參與join的數據表中,其中一個數據表包含大量的相同key值的數據記錄,例如,某個用戶登陸信息數據表中,記載有用戶ID“123”這個用戶分別在不同時間進行登陸的百萬或千萬條數據記錄(例如,其中一條記錄是“用戶ID 123——登陸時間2016.3.21”)。那么在數據倉庫使用的分布式計算平臺上處理該數據表與其他數據表的join操作時,通常計算時間會較長。

發明內容

有鑒于此,本發明提供一種數據表關聯方法和裝置,以在存在數據傾斜的數據表之間關聯時,提高數據表關聯的效率。

具體地,本發明是通過如下技術方案實現的:

第一方面,提供一種數據表關聯方法,該方法應用于對第一數據表和第二數據表進行關聯;其中,所述第一數據表中包括:能夠造成數據傾斜的傾斜數據以及所述傾斜數據之外的非傾斜數據,所述方法包括:

由所述第一數據表中提取所述傾斜數據放入第一數據分表,并將所述非傾斜數據放入第二數據分表;

由所述第二數據表中提取匹配關聯所述第一數據分表的數據,放入第三數據分表;

將所述第一數據分表和第三數據分表進行mapjoin得到第一關聯表,將所述第二數據分表和所述第二數據表進行關聯,得到第二關聯表;

將所述第一關聯表和第二關聯表進行組合,得到關聯結果表,所述關聯結果表為所述第一數據表和第二數據表關聯的結果。

第二方面,提供一種數據表關聯裝置,所述裝置應用于對第一數據表和第二數據表進行關聯;其中,所述第一數據表中包括:能夠造成數據傾斜的傾斜數據以及所述傾斜數據之外的非傾斜數據,所述裝置包括:

表拆分單元,用于由所述第一數據表中提取所述傾斜數據放入第一數據分表,并將所述非傾斜數據放入第二數據分表;

表提取單元,用于由所述第二數據表中提取匹配關聯所述第一數據分表的數據,放入第三數據分表;

表關聯單元,用于將所述第一數據分表和第三數據分表進行mapjoin得到第一關聯表,將所述第二數據分表和所述第二數據表進行關聯,得到第二關聯表;

表組合單元,用于將所述第一關聯表和第二關聯表進行組合,得到關聯結果表,所述關聯結果表為所述第一數據表和第二數據表關聯的結果。

本發明實施例的數據表關聯方法和裝置,通過將包含傾斜數據的數據表進行拆分,將拆分后的傾斜數據與一小表進行mapjoin,并將剩余數據與另一表join,使得這兩部分的數據表關聯都不會受到傾斜數據的影響,提高了數據表關聯的效率。

附圖說明

圖1為本發明實施例提供的數據表關聯方法的流程圖;

圖2為本發明實施例提供的數據表關聯方法的原理示意圖;

圖3為本發明實施例提供的數據表關聯裝置的結構示意圖;

圖4為本發明實施例提供的數據表關聯裝置的結構示意圖;

圖5為本發明實施例提供的數據表關聯裝置所在的處理設備的一種硬件結構圖。

具體實施方式

數據倉庫主要是為決策分析提供數據,所涉及的數據操作主要是數據查詢,并且為了保證數據倉庫提供數據的準確性,進入倉庫的數據通常要經過數據清洗。數據表關聯是數據倉庫進行數據清洗時的一種常用方法,例如,在通過map/reduce分布式計算平臺進行數據處理時,reduce階段可以根據兩個或更多的數據表中的關聯鍵對這些表執行join(也稱笛卡爾乘積),比如,數據倉庫接收到一個數據查詢請求,請求查詢獲取對應某個key的信息A和信息B,而信息A和信息B分別位于兩個數據表中,那么可以根據Key對這兩個數據表進行關聯,得到一個包含key及對應的信息A和信息B的新數據表,返回給查詢者。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201610480216.1/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国内精品99| 国产精品99久久久久久宅男| 91精品国产影片一区二区三区| 午夜影院一级| 久久精品欧美一区二区| 对白刺激国产对白精品城中村| 色乱码一区二区三在线看| 日韩a一级欧美一级在线播放| 久久婷婷国产综合一区二区| 欧美一区二三区| 国语精品一区| 国产精品免费一视频区二区三区| 久久99久久99精品免观看软件 | 午夜天堂电影| 精品国产乱码久久久久久久| 免费在线观看国产精品| 狠狠躁夜夜| xxxxx色| 日韩欧美激情| 少妇精品久久久久www蜜月| 久久激情图片| 国产日韩欧美网站| 国产91一区二区在线观看| 中文字幕天天躁日日躁狠狠躁免费| 国产精品视频免费看人鲁| 国产日韩欧美网站| 激情欧美一区二区三区| 中文在线一区| 欧美日韩精品中文字幕| 国产在线精品一区二区在线播放| 精品少妇的一区二区三区四区| 国产精品1区二区| 国产麻豆一区二区三区在线观看| 99精品黄色| 欧洲国产一区| 欧美中文字幕一区二区| 午夜电影一区| 国产真实一区二区三区| 搡少妇在线视频中文字幕| 首页亚洲欧美制服丝腿| 91视频国产一区| 性国产videofree极品| 一区二区欧美精品| 国产原创一区二区| 亚洲一区欧美| 国产伦精品一区二区三区免费迷| 国产精品一区二区日韩新区| 欧美精品第1页| 日韩精品免费一区| 首页亚洲欧美制服丝腿 | 欧美hdfree性xxxx| 欧美日韩精品不卡一区二区三区| 麻豆9在线观看免费高清1| 日韩av一二三四区| 亚洲一级中文字幕| 一区二区三区精品国产| 97人人澡人人添人人爽超碰| 精品少妇的一区二区三区四区| 视频一区欧美| 国产一区激情| 91看片淫黄大片91| 日韩中文字幕在线一区| 亚洲少妇中文字幕| 国产一区二区a| 在线国产一区二区| 国产一区三区四区| 亚洲欧美日韩综合在线| 福利片91| 麻豆精品一区二区三区在线观看| 窝窝午夜精品一区二区| 亚洲精品日韩激情欧美| 国产一级在线免费观看| 欧美精品一区久久| 狠狠色综合久久丁香婷婷| 狠狠躁天天躁又黄又爽| 精品国产乱码久久久久久免费| 狠狠色丁香久久综合频道| 日韩精品一区二区亚洲| 国产va亚洲va在线va| 夜夜夜夜夜猛噜噜噜噜噜gg| 亚洲国产精品一区在线观看| 日韩精品久久久久久中文字幕8|