[發明專利]用于在運行時處理數據傾斜的系統和方法有效
| 申請號: | 201910987065.2 | 申請日: | 2019-10-17 |
| 公開(公告)號: | CN111083189B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 陳壽緯;王文生 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;京東美國科技公司 |
| 主分類號: | H04L67/10 | 分類號: | H04L67/10;H04L67/1008;H04L67/1097 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 倪斌 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 運行 處理 數據 傾斜 系統 方法 | ||
1.一種系統,包括:
計算節點的集群,包括多個第一節點和多個第二節點,其中所述第一節點和所述第二節點中的每個節點具有存儲裝置,并且各個第二節點的存儲裝置具有比各個第一節點的存儲裝置高的存取速度;以及
處理器,被配置為將輸入數據拆分為分區,檢測任何所述分區是否具有數據傾斜,將不具有數據傾斜的分區分配給所述第一節點,將具有數據傾斜的分區分配給所述第二節點,以用于并行處理;
所述處理器被配置為至少部分地基于所述第二節點的數量與所述第一節點和第二節點的總數量的比值來將一比例分區確定為具有數據傾斜。
2.根據權利要求1所述的系統,其中,每個所述第二節點的存儲裝置在存取速度方面與所述第二節點使用的存儲器相當。
3.根據權利要求1所述的系統,其中,每個所述第二節點的存儲裝置適于作為所述第二節點的計算資源的臨時擴展存儲器。
4.根據權利要求1所述的系統,其中,各個所述第二節點的存儲裝置包括非易失性存儲器快速NVMe、Optane固態硬盤SSD或永久性存儲器中的至少一種。
5.根據權利要求1所述的系統,其中,所述比例在1%-10%的范圍內,并且所述比值在1%-10%的范圍內。
6.根據權利要求1所述的系統,其中,所述處理器被配置為基于所述比例,將以數據量降序排序的分區列表中的頂部分區確定為具有數據傾斜。
7.根據權利要求6所述的系統,其中,所述處理器被配置為基于映射-重排-化簡的MapReduce方式來處理所述輸入數據,所包括的數據量由包括在所述分區中的鍵-值對的數量和所述分區的大小中的至少一個來表示。
8.根據權利要求7所述的系統,其中,所述處理器還被配置為在評估所述數據量時應用加權因子。
9.根據權利要求8所述的系統,其中,所述加權因子在5-10的范圍內。
10.根據權利要求7所述的系統,其中,所述處理器還被配置為設置所述數據量的下界,并且如果所述分區的數據量不大于所述下界,則將所述分區確定為不具有數據傾斜。
11.根據權利要求10所述的系統,其中,所述處理器還被配置為至少部分地基于由所述鍵-值對的典型大小劃分的預先確定的數據大小來設置所述鍵-值對的數量的下界,以及至少部分地基于所述預先確定的數據大小來設置所述分區的大小的下界,其中所述預先確定的數據大小指示如果在所述第一節點上進行處理將不使所述第一節點發生顯著劣化的數據大小。
12.根據權利要求11所述的系統,其中,所述預先確定的數據大小在2GB-4GB的范圍內。
13.一種方法,包括:
處理器將輸入數據拆分為分區;
處理器檢測任何所述分區是否具有數據傾斜;以及
處理器將不具有數據傾斜的分區分配給計算節點集群的第一節點,將具有數據傾斜的分區分配給所述集群的第二節點,以用于并行處理,
其中,所述第一節點和所述第二節點中的每個節點具有存儲裝置,并且各個第二節點的存儲裝置具有比各個第一節點的存儲裝置高的存取速度;
所述檢測任何所述分區是否具有數據傾斜的步驟包括:至少部分地基于所述第二節點的數量與所述第一節點和所述第二節點的總數量的比值將一比例分區確定為具有數據傾斜。
14.根據權利要求13所述的方法,其中,檢測任何所述分區是否具有數據傾斜的步驟包括:基于所述比例,將以數據量降序排序的分區列表中的頂部分區確定為具有數據傾斜。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;京東美國科技公司,未經北京京東尚科信息技術有限公司;京東美國科技公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910987065.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示裝置
- 下一篇:控制系統、控制方法和控制程序
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





