[發明專利]用于在運行時處理數據傾斜的系統和方法有效
| 申請號: | 201910987065.2 | 申請日: | 2019-10-17 |
| 公開(公告)號: | CN111083189B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 陳壽緯;王文生 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;京東美國科技公司 |
| 主分類號: | H04L67/10 | 分類號: | H04L67/10;H04L67/1008;H04L67/1097 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 倪斌 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 運行 處理 數據 傾斜 系統 方法 | ||
一種用于處理數據傾斜的系統,包括計算節點和處理器的集群。集群包括一個或多個第一節點和一個或多個第二節點,每個第一節點具有存儲裝置,每個第二節點具有存儲裝置。各個第二節點的存儲裝置具有比各個第一節點的存儲裝置高的存取速度。處理器被配置為將輸入數據拆分為輸入數據的分區,檢測任何分區是否具有數據傾斜,將檢測為不具有數據傾斜的分區分配給第一節點,將檢測為具有數據傾斜的分區分配給第二節點,以用于并行處理。
交叉引用
在本公開的描述中引用和討論了可能包括專利、專利申請和各種出版物的一些參考文獻。提供這種參考文獻的引用和/或討論僅是為了闡明對本公開的描述,而不是承認任何這種參考文獻是本文中所描述的公開的“現有技術”。本說明書中引用和討論的所有參考文獻通過引用整體并入本文中,其程度與每個參考文獻通過引用單獨并入本文中的程度相同。
技術領域
本公開大體上涉及大數據領域,更具體地,涉及在運行時處理大數據框架中的數據傾斜的系統和方法。
背景技術
本文中所提供的背景技術描述是出于大體上呈現本公開的背景的目的。目前署名的發明人在本背景技術部分中所描述范圍內的工作,以及在遞交時可能無法被另外視為現有技術的描述的各方面,均未明確或暗含為針對本公開的現有技術。
隨著數據量的增加和數據的高復雜性,數據傾斜常見于大規模大數據處理中。由于大多數大數據框架利用同步分布式計算模型,因此數據傾斜將顯著增加大數據應用的執行時間。在一些嚴重的情況下,應用甚至由于數據傾斜而無法完成。此外,公司中的數據分布每天都在發生變化,而大多數現有解決方案無法在運行時解決數據傾斜的問題。
因此,在本領域中存在解決上述缺陷和不足的未解決的需求。
發明內容
在一個方面,本公開涉及用于在運行時處理數據傾斜的系統。在某些實施例中,系統包括多個計算設備,該多個計算設備定義計算節點和處理器的集群。該集群包括多個第一節點和多個第二節點,多個第一節點中的每個第一節點具有存儲裝置,多個第二節點中的每個第二節點具有存儲裝置。各個第二節點的存儲裝置具有比各個第一節點的存儲裝置高的存取速度。處理器被配置為將輸入數據拆分為輸入數據的分區,檢測任何分區是否具有數據傾斜,并將不具有數據傾斜的分區分配給第一節點,將具有數據傾斜的分區分配給第二節點,以用于并行處理。
在某些實施例中,第二節點的數量與第一節點和第二節點的總數量的比值小于10%,優選小于5%。在某些實施例中,比值大約為1%。
在某些實施例中,每個第二節點的存儲裝置在存取速度方面與第二節點使用的存儲器相當。
在某些實施例中,每個第二節點的存儲裝置適于作為第二節點的計算資源的臨時擴展存儲器。
在某些實施例中,各個第二節點的存儲裝置包括非易失性存儲器快速(NVMe)、Optane固態盤(SSD)或永久性存儲器中的至少一種。
在某些實施例中,處理器被配置為至少部分地基于第二節點的數量與第一節點和第二節點的總數量的比值來將一比例分區確定為具有數據傾斜。在某些實施例中,處理器是集群內節點中的主進程,其被配置為管理第一節點和第二節點。
在某些實施例中,處理器被配置為基于該比例將以數據量降序排序的分區列表中的頂部分區確定為具有數據傾斜。在某些實施例中,該比例在1%-10%的范圍內,并且該比值在1%-10%的范圍內。
在某些實施例中,處理器被配置為基于映射-重排-化簡(MapReduce)的方式來處理輸入數據,并且數據量由包括在分區中的鍵-值對的數量和分區大小中的至少一個來表示。
在某些實施例中,處理器還被配置為在評估數據量時應用加權因子。在某些實施例中,加權因子在2-20的范圍內。在某些實施例中,加權因子在5-10的范圍內。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;京東美國科技公司,未經北京京東尚科信息技術有限公司;京東美國科技公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910987065.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示裝置
- 下一篇:控制系統、控制方法和控制程序
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





