[發明專利]數據處理的方法、裝置、計算機設備以及存儲介質在審
| 申請號: | 202110254726.8 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN112905596A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 向鵬;楊令卿;黃江 | 申請(專利權)人: | 北京中經惠眾科技有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/27 |
| 代理公司: | 北京市漢坤律師事務所 11602 | 代理人: | 初媛媛;吳麗麗 |
| 地址: | 100089 北京市西城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 計算機 設備 以及 存儲 介質 | ||
1.一種數據處理的方法,包括:
將待連接的第一數據集和第二數據集分別拆分為多個第一分區和多個第二分區;
確定所述多個第一分區和所述多個第二分區中的每個分區的數據量;
根據所述第一數據集和所述第二數據集的連接類型以及所確定的每個分區的數據量,選擇性地對所述多個第一分區和所述多個第二分區進行再拆分,以得到多個第一數據集分區和多個第二數據集分區;以及
將所述多個第一數據集分區和所述多個第二數據集分區分配至各自的計算節點以進行所述第一數據集和所述第二數據集的連接。
2.根據權利要求1所述的方法,其中,所述連接類型包括以下各項中的一種:內連接、左連接以及右連接。
3.根據權利要求2所述的方法,其中,所述選擇性地對所述多個第一分區和所述多個第二分區進行再拆分包括:
響應于確定所述連接類型為內連接,對于所述多個第一分區和所述多個第二分區兩者中的每個分區:
確定該分區的數據量是否大于閾值;以及
響應于確定該分區的數據量大于閾值,對該分區進行再拆分。
4.根據權利要求2所述的方法,其中,所述選擇性地對所述多個第一分區和所述多個第二分區進行再拆分包括:
響應于確定所述連接類型為左連接,對于所述多個第一分區中的每個分區:
確定該分區的數據量是否大于閾值;以及
響應于確定該分區的數據量大于閾值,對該分區進行再拆分。
5.根據權利要求2所述的方法,其中,所述選擇性地對所述多個第一分區和所述多個第二分區進行再拆分包括:
響應于確定所述連接類型為右連接,對于所述多個第二分區兩者中的每個分區:
確定該分區的數據量是否大于閾值;以及
響應于確定該分區的數據量大于閾值,對該分區進行再拆分。
6.根據權利要求1至5中任一項所述的方法,其中,
所述多個第一分區和所述多個第二分區一一對應,并且
其中,所述選擇性地對所述多個第一分區和所述多個第二分區進行再拆分還包括:
響應于確定所述多個第一分區中的某個第一分區被再拆分,對所述多個第二分區中與該第一分區對應的第二分區進行復制,使得得到的所述多個第一數據集分區和所述多個第二數據集分區一一對應。
7.根據權利要求1至5中任一項所述的方法,其中,
所述多個第一分區和所述多個第二分區一一對應,并且
其中,所述選擇性地對所述多個第一分區和所述多個第二分區進行再拆分還包括:
響應于確定所述多個第二分區中的某個第二分區被再拆分,對所述多個第一分區中與該二分區對應的第一分區進行復制,使得得到的所述多個第一數據集分區和所述多個第二數據集分區一一對應。
8.根據權利要求1至5中任一項所述的方法,其中,所述將待連接的所述第一數據集和所述第二數據集分別拆分為多個第一分區和多個第二分區包括:
根據待連接的第一數據集和第二數據集的關聯關系,將所述第一數據集和所述第二數據集分別拆分為多個第一分區和多個第二分區。
9.根據權利要求8所述的方法,其中,所述關聯關系包括所述第一數據集和所述第二數據集的共有鍵值對。
10.根據權利要求3至5中任一項所述的方法,其中,所述閾值是根據每個計算節點的計算能力設定的。
11.根據權利要求10所述的方法,其中,所述計算能力包括該計算節點的內存大小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中經惠眾科技有限公司,未經北京中經惠眾科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110254726.8/1.html,轉載請聲明來源鉆瓜專利網。





