[發(fā)明專利]處理數(shù)據(jù)傾斜的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 201911279342.0 | 申請(qǐng)日: | 2019-12-13 |
| 公開(kāi)(公告)號(hào): | CN111046045B | 公開(kāi)(公告)日: | 2023-09-29 |
| 發(fā)明(設(shè)計(jì))人: | 余可帆 | 申請(qǐng)(專利權(quán))人: | 中國(guó)平安財(cái)產(chǎn)保險(xiǎn)股份有限公司 |
| 主分類號(hào): | G06F16/22 | 分類號(hào): | G06F16/22;G06F16/27;G06F16/28 |
| 代理公司: | 北京市京大律師事務(wù)所 11321 | 代理人: | 謝文強(qiáng) |
| 地址: | 518048 廣東省深圳市福田區(qū)益田路*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 處理 數(shù)據(jù) 傾斜 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種處理數(shù)據(jù)傾斜的方法,其特征在于,所述方法包括:
預(yù)先設(shè)置待存儲(chǔ)空間的容量大小,設(shè)置所述待存儲(chǔ)空間中的數(shù)據(jù)類型和各所述數(shù)據(jù)類型對(duì)應(yīng)的數(shù)據(jù)的目標(biāo)數(shù)量;
基于所述容量大小和所述數(shù)據(jù)類型根據(jù)預(yù)設(shè)規(guī)則對(duì)所述待存儲(chǔ)空間進(jìn)行分區(qū)得到每種數(shù)據(jù)類型對(duì)應(yīng)的子存儲(chǔ)空間的大小和數(shù)量,所述待存儲(chǔ)空間包括多個(gè)所述子存儲(chǔ)空間;
根據(jù)各所述子存儲(chǔ)空間的大小以及所述數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)量通過(guò)分區(qū)規(guī)則確定各分區(qū)內(nèi)目標(biāo)存儲(chǔ)空間的大小和數(shù)量,所述子存儲(chǔ)空間包括多個(gè)所述目標(biāo)存儲(chǔ)空間;
根據(jù)各分區(qū)內(nèi)所述目標(biāo)存儲(chǔ)空間的數(shù)量設(shè)置各分區(qū)的隨機(jī)數(shù),所述隨機(jī)數(shù)包括各分區(qū)對(duì)應(yīng)的分區(qū)號(hào);
將預(yù)設(shè)判斷條件和所述隨機(jī)數(shù)標(biāo)記在所述待存儲(chǔ)空間中的各數(shù)據(jù)上,所述預(yù)設(shè)判斷條件用于判斷存儲(chǔ)到目標(biāo)待存儲(chǔ)空間中的數(shù)據(jù);
通過(guò)隨機(jī)分組函數(shù)分析所述待存儲(chǔ)空間中的各數(shù)據(jù)上標(biāo)記的內(nèi)容,以將所述各數(shù)據(jù)類型對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)到目標(biāo)待存儲(chǔ)空間中;
所述根據(jù)各所述子存儲(chǔ)空間的大小以及所述數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)量通過(guò)分區(qū)規(guī)則確定各分區(qū)內(nèi)目標(biāo)存儲(chǔ)空間的大小和數(shù)量,包括:
通過(guò)分區(qū)規(guī)則分析所述數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)量,確定所述子存儲(chǔ)空間的劃分區(qū)域和劃分?jǐn)?shù)量,所述劃分?jǐn)?shù)量指示各所述劃分區(qū)域內(nèi)存儲(chǔ)的數(shù)據(jù)的數(shù)量;
根據(jù)所述子存儲(chǔ)空間的大小計(jì)算各所述劃分區(qū)域的大小,得到各區(qū)域大小;
根據(jù)所述劃分?jǐn)?shù)量對(duì)各所述劃分區(qū)域進(jìn)行平均劃分,得到各所述劃分區(qū)域中多個(gè)目標(biāo)存儲(chǔ)空間,所述各所述劃分區(qū)域?qū)?yīng)的目標(biāo)存儲(chǔ)空間的數(shù)量和為各分區(qū)內(nèi)目標(biāo)存儲(chǔ)空間的數(shù)量;
根據(jù)所述各區(qū)域大小計(jì)算各所述劃分區(qū)域?qū)?yīng)的目標(biāo)存儲(chǔ)空間的平均大小,得到各分區(qū)內(nèi)目標(biāo)存儲(chǔ)空間的大小;
或者,獲取所述子存儲(chǔ)空間中鍵Key的量級(jí);
根據(jù)所述Key的量級(jí)設(shè)置數(shù)量閾值,所述數(shù)量閾值用于指示存儲(chǔ)于所述子存儲(chǔ)空間中的目標(biāo)存儲(chǔ)空間的最大數(shù)量;
將所述數(shù)量閾值、所述子存儲(chǔ)空間的大小和所述數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)量作為判斷項(xiàng),并創(chuàng)建所述數(shù)量閾值、所述子存儲(chǔ)空間的大小和所述數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)量的對(duì)應(yīng)關(guān)系;
根據(jù)所述判斷項(xiàng)和所述對(duì)應(yīng)關(guān)系建立分區(qū)規(guī)則,并根據(jù)所述分區(qū)規(guī)則和所述對(duì)應(yīng)關(guān)系創(chuàng)建劃分表;
根據(jù)所述對(duì)應(yīng)關(guān)系遍歷所述劃分表,獲得各分區(qū)內(nèi)目標(biāo)存儲(chǔ)空間的大小和數(shù)量。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)各分區(qū)內(nèi)所述目標(biāo)存儲(chǔ)空間的數(shù)量設(shè)置各分區(qū)的隨機(jī)數(shù),包括:
獲取根據(jù)所述劃分表獲取的各分區(qū)內(nèi)所述目標(biāo)存儲(chǔ)空間的數(shù)量;
將各分區(qū)內(nèi)所述目標(biāo)待存儲(chǔ)空間的數(shù)量的值設(shè)置為各分區(qū)的隨機(jī)數(shù)的最大值;
基于所述最大值通過(guò)隨機(jī)函數(shù)生成各分區(qū)的隨機(jī)數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)判斷條件,包括:
當(dāng)檢測(cè)到一個(gè)或一個(gè)以上的回調(diào)函數(shù)對(duì)應(yīng)的數(shù)據(jù)的數(shù)量大于預(yù)設(shè)平均值時(shí),獲取所述回調(diào)函數(shù)對(duì)應(yīng)的數(shù)據(jù)的數(shù)量為最大值對(duì)應(yīng)的目標(biāo)key;
將所述目標(biāo)key重新組合成彈性分布式數(shù)據(jù)集,并在經(jīng)過(guò)重新組合成彈性分布式數(shù)據(jù)集的所述目標(biāo)key的前綴標(biāo)記所述隨機(jī)數(shù);
將標(biāo)記所述隨機(jī)數(shù)為前綴的目標(biāo)key調(diào)到多個(gè)任務(wù)中進(jìn)行結(jié)合join操作以獲取多個(gè)操作結(jié)果,將多個(gè)所述操作結(jié)果聚合;
當(dāng)檢測(cè)到用戶表與日志表中的目標(biāo)數(shù)據(jù)類型存在差異時(shí),分別將所述用戶表與所述日志表中的目標(biāo)數(shù)據(jù)類型中的數(shù)字類型轉(zhuǎn)換成字符串類型,其中,所述待存儲(chǔ)空間包括用戶表和日志表,所述目標(biāo)數(shù)據(jù)類型指示相同數(shù)據(jù)字段的數(shù)據(jù)類型;
檢測(cè)經(jīng)過(guò)數(shù)據(jù)類型轉(zhuǎn)換的數(shù)據(jù)是否存在空值,若是,則賦予存在空值的數(shù)據(jù)新的key值,其中,所述新的key值指示將空值的key轉(zhuǎn)換為一個(gè)標(biāo)記所述隨機(jī)數(shù)的字符串。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)平安財(cái)產(chǎn)保險(xiǎn)股份有限公司,未經(jīng)中國(guó)平安財(cái)產(chǎn)保險(xiǎn)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911279342.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種跳遠(yuǎn)沙池用平整裝置
- 下一篇:波輪包邊系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





