[發(fā)明專利]一種數(shù)據(jù)處理方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201711025417.3 | 申請(qǐng)日: | 2017-10-27 |
| 公開(kāi)(公告)號(hào): | CN110019360A | 公開(kāi)(公告)日: | 2019-07-16 |
| 發(fā)明(設(shè)計(jì))人: | 熊亮春 | 申請(qǐng)(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06F16/2455 | 分類號(hào): | G06F16/2455;G06F16/22 |
| 代理公司: | 北京安信方達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 11262 | 代理人: | 孫敬霞;栗若木 |
| 地址: | 英屬開(kāi)曼群島大開(kāi)*** | 國(guó)省代碼: | 開(kāi)曼群島;KY |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 哈希表 數(shù)據(jù)處理 哈希連接 表數(shù)據(jù) 不一致 掃描 復(fù)制 合并 廣播 申請(qǐng) | ||
本文提供一種數(shù)據(jù)處理方法及裝置,所述數(shù)據(jù)處理方法可以包括:通過(guò)掃描內(nèi)表數(shù)據(jù)生成第一哈希表;廣播所述第一哈希表;獲取全量哈希表,所述全量哈希表由所述第一哈希表合并得到;將所述全量哈希表與外表進(jìn)行哈希連接。本申請(qǐng)能夠在join key與分布鍵不一致且內(nèi)表、外表都不是復(fù)制表的情況下,有效提高哈希連接的執(zhí)行效率。
技術(shù)領(lǐng)域
本發(fā)明涉及分布式計(jì)算領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法及裝置。
背景技術(shù)
哈希連接(Hash Join)是一種連接(join)的執(zhí)行方式,因?yàn)閔ash join的執(zhí)行方式能最大程度的利用MPP架構(gòu)的數(shù)據(jù)分布特點(diǎn),使得在大多數(shù)情況下Hash join在大規(guī)模并行處理計(jì)算機(jī)(MPP,Massive Parallel Processor)架構(gòu)數(shù)據(jù)庫(kù)下的執(zhí)行性能都優(yōu)于其他兩種Join執(zhí)行方法(即,嵌套循環(huán)(Nest loop),排序合并(sort merge))。
目前,Hash join執(zhí)行方法中,當(dāng)join key與分布鍵不一致,且內(nèi)表、外表都不是復(fù)制表的情況下,要保證連接結(jié)果的正確,需要將每個(gè)計(jì)算節(jié)點(diǎn)的數(shù)據(jù)按照連接謂詞(joinkey)進(jìn)行重分布,然后再執(zhí)行哈希連接操作。這是Hash join最為普遍的一種執(zhí)行場(chǎng)景。然而,通過(guò)多個(gè)計(jì)算節(jié)點(diǎn)并行的方式執(zhí)行數(shù)據(jù)重分布,在網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)總量必然會(huì)大幅增加,這不僅會(huì)降低哈希連接的執(zhí)行效率,而且會(huì)造成網(wǎng)絡(luò)帶寬資源的需求量增加,進(jìn)而占用大量網(wǎng)絡(luò)帶寬資源。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┮环N數(shù)據(jù)處理方法及裝置,能夠在join key與分布鍵不一致且內(nèi)表、外表都不是復(fù)制表的情況下,有效提高哈希連接的執(zhí)行效率。
本申請(qǐng)采用如下技術(shù)方案。
一種數(shù)據(jù)處理方法,包括:
通過(guò)掃描本地的內(nèi)表數(shù)據(jù)生成第一哈希表;
廣播所述第一哈希表,以便其他計(jì)算節(jié)點(diǎn)基于所述第一哈希表得到第二哈希表,所述第二哈希表至少由所述第一哈希表合并得到。
其中,所述方法還包括:將所述第一哈希表壓縮;所述廣播所述第一哈希表,包括:廣播所述壓縮后的第一哈希表。
其中,所述廣播所述第一哈希表,包括如下之一:向除當(dāng)前計(jì)算節(jié)點(diǎn)之外的計(jì)算節(jié)點(diǎn)廣播所述第一哈希表;向目標(biāo)計(jì)算節(jié)點(diǎn)廣播所述第一哈希表。
另一種數(shù)據(jù)處理方法,包括:獲取全量哈希表,所述全量哈希表至少由第一哈希表合并得到,所述第一哈希表通過(guò)掃描計(jì)算節(jié)點(diǎn)的本地內(nèi)表數(shù)據(jù)生成;將所述全量哈希表與外表進(jìn)行哈希連接。
其中,所述獲取全量哈希表包括如下之一:接收來(lái)自其他計(jì)算節(jié)點(diǎn)的第一哈希表,將自身得到的第一哈希表與所述來(lái)自其他計(jì)算節(jié)點(diǎn)的第一哈希表合并,得到所述全量哈希表;接收來(lái)自目標(biāo)計(jì)算節(jié)點(diǎn)的所述全量哈希表。
其中,所述方法還包括:在接收到來(lái)自其他計(jì)算節(jié)點(diǎn)的壓縮的第一哈希表時(shí),在所述合并之前將所述壓縮的第一哈希表解壓縮。
其中,所述將所述全量哈希表與外表進(jìn)行哈希連接,包括:根據(jù)來(lái)自協(xié)調(diào)節(jié)點(diǎn)的通知,將所述外表的部分?jǐn)?shù)據(jù)進(jìn)行分發(fā),以便通過(guò)其他計(jì)算節(jié)點(diǎn)執(zhí)行所述外表的部分?jǐn)?shù)據(jù)與所述全量哈希表的哈希連接操作。
其中,所述將所述全量哈希表與外表進(jìn)行哈希連接,包括:接收來(lái)自其他計(jì)算節(jié)點(diǎn)的外表數(shù)據(jù),并將所述外表數(shù)據(jù)與所述全量哈希表進(jìn)行哈希連接操作。
又一種數(shù)據(jù)處理方法,包括:
通過(guò)掃描內(nèi)表數(shù)據(jù)生成第一哈希表;
廣播所述第一哈希表;
獲取全量哈希表,所述全量哈希表由所述第一哈希表合并得到;
將所述全量哈希表與外表進(jìn)行哈希連接。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711025417.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 使用哈希表森林?jǐn)?shù)據(jù)結(jié)構(gòu)的分組分類方法與裝置
- 一種哈希表動(dòng)態(tài)適應(yīng)數(shù)據(jù)的方法及裝置
- 訪問(wèn)哈希表的裝置和方法
- 一種生成哈希連接表的方法及裝置
- 用于管理哈希表的方法、設(shè)備和計(jì)算機(jī)程序產(chǎn)品
- 哈希表修復(fù)方法及裝置
- 一種哈希沖突的處理方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 搜索目標(biāo)鍵的方法、系統(tǒng)和非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)
- 一種基于硬件實(shí)現(xiàn)的哈希表結(jié)構(gòu)以及插入、查詢和刪除方法
- 一種動(dòng)態(tài)哈希方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 一種面向哈希連接的數(shù)據(jù)存儲(chǔ)優(yōu)化方法
- 哈希連接方法和裝置
- 一種生成哈希連接表的方法及裝置
- 一種數(shù)據(jù)處理方法及裝置
- 哈希混合加速系統(tǒng)及應(yīng)用其進(jìn)行哈希連接的方法
- 深度哈希學(xué)習(xí)方法及裝置
- 哈希連接方法、裝置、系統(tǒng)、電子設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 期待連接處理方法、裝置、可讀存儲(chǔ)介質(zhì)和電子設(shè)備
- 基于哈希連接的探測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫(kù)執(zhí)行哈希連接的方法以及裝置
- 面向未來(lái)的信息網(wǎng)絡(luò)架構(gòu)、分布式數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)結(jié)構(gòu)及通用算法
- 一種數(shù)據(jù)表關(guān)聯(lián)方法和裝置
- 一種獲取數(shù)據(jù)庫(kù)變化表數(shù)據(jù)的方法、裝置、介質(zhì)及設(shè)備
- 一種數(shù)據(jù)表切換方法及裝置
- 數(shù)據(jù)倉(cāng)庫(kù)表結(jié)構(gòu)變更方法及裝置
- 數(shù)據(jù)遷移方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)存儲(chǔ)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)管理方法、裝置及服務(wù)器
- 數(shù)據(jù)表管理方法及裝置
- 數(shù)據(jù)處理方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)





