[發(fā)明專(zhuān)利]數(shù)據(jù)處理的方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110254726.8 | 申請(qǐng)日: | 2021-03-05 |
| 公開(kāi)(公告)號(hào): | CN112905596A | 公開(kāi)(公告)日: | 2021-06-04 |
| 發(fā)明(設(shè)計(jì))人: | 向鵬;楊令卿;黃江 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京中經(jīng)惠眾科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/22 | 分類(lèi)號(hào): | G06F16/22;G06F16/27 |
| 代理公司: | 北京市漢坤律師事務(wù)所 11602 | 代理人: | 初媛媛;吳麗麗 |
| 地址: | 100089 北京市西城區(qū)*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)處理 方法 裝置 計(jì)算機(jī) 設(shè)備 以及 存儲(chǔ) 介質(zhì) | ||
本公開(kāi)涉及一種數(shù)據(jù)處理的方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)。方法包括:將待連接的第一數(shù)據(jù)集和第二數(shù)據(jù)集分別拆分為多個(gè)第一分區(qū)和多個(gè)第二分區(qū);確定多個(gè)第一分區(qū)和多個(gè)第二分區(qū)中的每個(gè)分區(qū)的數(shù)據(jù)量;根據(jù)第一數(shù)據(jù)集和第二數(shù)據(jù)集的連接類(lèi)型以及所確定的每個(gè)分區(qū)的數(shù)據(jù)量,選擇性地對(duì)多個(gè)第一分區(qū)和多個(gè)第二分區(qū)進(jìn)行再拆分,以得到多個(gè)第一數(shù)據(jù)集分區(qū)和多個(gè)第二數(shù)據(jù)集分區(qū);以及將多個(gè)第一數(shù)據(jù)集分區(qū)和多個(gè)第二數(shù)據(jù)集分區(qū)分配至各自的計(jì)算節(jié)點(diǎn)以進(jìn)行第一數(shù)據(jù)集和第二數(shù)據(jù)集的連接。
技術(shù)領(lǐng)域
本公開(kāi)涉及大數(shù)據(jù)以及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)處理的方法、裝置、計(jì)算機(jī)設(shè)備、非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù)
大數(shù)據(jù)是指一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型和價(jià)值密度低四大特征。面對(duì)如此規(guī)模大的數(shù)據(jù),需要通過(guò)大數(shù)據(jù)計(jì)算集群來(lái)對(duì)其進(jìn)行處理、分析以及聚合,以從這些數(shù)據(jù)中找到有用的信息,從而為上層應(yīng)用提供服務(wù)以及為用戶(hù)提供決策。
在大數(shù)據(jù)計(jì)算集群中,由于鍵值分布不均勻、業(yè)務(wù)數(shù)據(jù)本身特性或者建表時(shí)考慮不周等原因,可能產(chǎn)生數(shù)據(jù)傾斜的情況,即,計(jì)算集群中的各個(gè)節(jié)點(diǎn)的數(shù)據(jù)分布不均。這將導(dǎo)致某些節(jié)點(diǎn)的讀/寫(xiě)請(qǐng)求過(guò)多、負(fù)載過(guò)大以及計(jì)算時(shí)間過(guò)長(zhǎng),從而影響大數(shù)據(jù)集群的整體的計(jì)算速度。
在此部分中描述的方法不一定是之前已經(jīng)設(shè)想到或采用的方法。除非另有指明,否則不應(yīng)假定此部分中描述的任何方法僅因其包括在此部分中就被認(rèn)為是現(xiàn)有技術(shù)。類(lèi)似地,除非另有指明,否則此部分中提及的問(wèn)題不應(yīng)認(rèn)為在任何現(xiàn)有技術(shù)中已被公認(rèn)。
發(fā)明內(nèi)容
有鑒于此,本公開(kāi)提供了一種數(shù)據(jù)處理的方法和裝置,以緩解、減輕或甚至消除大數(shù)據(jù)計(jì)算集群中的數(shù)據(jù)傾斜的問(wèn)題,并且同時(shí)確保數(shù)據(jù)連接的準(zhǔn)確性和可靠性。
根據(jù)本公開(kāi)的第一方面,提供了一種數(shù)據(jù)處理的方法,包括:將待連接的第一數(shù)據(jù)集和第二數(shù)據(jù)集分別拆分為多個(gè)第一分區(qū)和多個(gè)第二分區(qū);確定所述多個(gè)第一分區(qū)和所述多個(gè)第二分區(qū)中的每個(gè)分區(qū)的數(shù)據(jù)量;根據(jù)所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集的連接類(lèi)型以及所確定的每個(gè)分區(qū)的數(shù)據(jù)量,選擇性地對(duì)所述多個(gè)第一分區(qū)和所述多個(gè)第二分區(qū)進(jìn)行再拆分,以得到多個(gè)第一數(shù)據(jù)集分區(qū)和多個(gè)第二數(shù)據(jù)集分區(qū);以及將所述多個(gè)第一數(shù)據(jù)集分區(qū)和所述多個(gè)第二數(shù)據(jù)集分區(qū)分配至各自的計(jì)算節(jié)點(diǎn)以進(jìn)行所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集的連接。
根據(jù)本公開(kāi)的第二方面,提供了一種數(shù)據(jù)處理的裝置,包括:拆分模塊,所述拆分模塊被配置為將待連接的第一數(shù)據(jù)集和第二數(shù)據(jù)集分別拆分為多個(gè)第一分區(qū)和多個(gè)第二分區(qū);確定模塊,所述確定模塊被配置為確定所述多個(gè)第一分區(qū)和所述多個(gè)第二分區(qū)中的每個(gè)分區(qū)的數(shù)據(jù)量;再拆分模塊,所述再拆分模塊被配置為根據(jù)所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集的連接類(lèi)型以及所確定的每個(gè)分區(qū)的數(shù)據(jù)量,選擇性地對(duì)所述多個(gè)第一分區(qū)和所述多個(gè)第二分區(qū)進(jìn)行再拆分,以得到多個(gè)第一數(shù)據(jù)集分區(qū)和多個(gè)第二數(shù)據(jù)集分區(qū);以及分配模塊,所述分配模塊被配置為將所述多個(gè)第一數(shù)據(jù)集分區(qū)和所述多個(gè)第二數(shù)據(jù)集分區(qū)分配至各自的計(jì)算節(jié)點(diǎn)以進(jìn)行所述第一數(shù)據(jù)集和所述第二數(shù)據(jù)集的連接。
根據(jù)本公開(kāi)的第三方面,提供了一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器上的計(jì)算機(jī)程序。所述處理器被配置為執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)本公開(kāi)的第一方面所述方法的步驟。
根據(jù)本公開(kāi)的第四方面,提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序。所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)根據(jù)本公開(kāi)的第一方面所述方法的步驟。
根據(jù)本公開(kāi)的第五方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序。所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本公開(kāi)第一方面所述方法的步驟。
根據(jù)本公開(kāi)的一個(gè)或多個(gè)實(shí)施例,通過(guò)根據(jù)連接類(lèi)型選擇性地對(duì)數(shù)據(jù)量較大的分區(qū)進(jìn)行再拆分,以使得數(shù)據(jù)分布均勻,從而緩解、減輕或甚至消除數(shù)據(jù)傾斜的問(wèn)題,并且同時(shí)保證數(shù)據(jù)連接的準(zhǔn)確性和可靠性。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京中經(jīng)惠眾科技有限公司,未經(jīng)北京中經(jīng)惠眾科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110254726.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 光源裝置、照明裝置、液晶裝置和電子裝置
- 預(yù)測(cè)裝置、編輯裝置、逆預(yù)測(cè)裝置、解碼裝置及運(yùn)算裝置
- 圖像形成裝置、定影裝置、遮光裝置以及保持裝置
- 打印裝置、讀取裝置、復(fù)合裝置以及打印裝置、讀取裝置、復(fù)合裝置的控制方法
- 電子裝置、光盤(pán)裝置、顯示裝置和攝像裝置
- 光源裝置、照明裝置、曝光裝置和裝置制造方法
- 用戶(hù)裝置、裝置對(duì)裝置用戶(hù)裝置、后端裝置及其定位方法
- 遙控裝置、通信裝置、可變裝置及照明裝置
- 透鏡裝置、攝像裝置、處理裝置和相機(jī)裝置
- 抖動(dòng)校正裝置、驅(qū)動(dòng)裝置、成像裝置、和電子裝置
- 雙桌面遠(yuǎn)程控制系統(tǒng)及方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 一種基于網(wǎng)絡(luò)的計(jì)算機(jī)信息檢索系統(tǒng)與方法
- 雙計(jì)算機(jī)系統(tǒng)
- 制導(dǎo)雷達(dá)計(jì)算機(jī)系統(tǒng)
- 一種服務(wù)部署方法及裝置
- 一種計(jì)算機(jī)集成系統(tǒng)及故障自動(dòng)切換方法
- 一種計(jì)算機(jī)信息安全監(jiān)控系統(tǒng)
- 混合型量子計(jì)算機(jī)架構(gòu)及其執(zhí)行計(jì)算任務(wù)的方法





