[發明專利]一種大規模并行處理架構中的混合數據分布有效
| 申請號: | 201680011529.0 | 申請日: | 2016-01-26 |
| 公開(公告)號: | CN107251023B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 杰森·揚·孫;周慶慶 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/23 | 分類號: | G06F16/23;G06F16/28;G06F16/2458 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 大規模 并行 處理 架構 中的 混合 數據 分布 | ||
大規模并行處理(massively parallel processing,簡稱MPP)數據庫中的混合分布模式的系統和方法防止由數據傾斜引起的存儲不平衡問題。若鍵的記錄導致數據庫傾斜,將所述數據庫的那些鍵值視作離群點。在混合模式下,包含離群鍵值的記錄通過隨機分布方案進行分布。其他記錄通過哈希分布方案進行分布。系統的門限傾斜量是可配置的。記錄查詢、插入、刪除以及更新根據查詢計劃進行處理,其中該查詢計劃是針對數據庫查詢中參考的記錄的分布模式進行的優化。
相關申請案交叉申請
本發明要求于2015年2月23日遞交的發明名稱為“一種大規模并行處理架構中的混合數據分布”的第14/629,107號美國非臨時專利申請案的在先申請優先權,該在先申請的內容以引入的方式并入本文。
技術領域
本發明大體涉及數據庫管理領域,更具體地,涉及大規模并行處理(massivelyparallel processing,簡稱MPP)數據庫中的數據分布領域。
背景技術
大規模并行處理(massively parallel processing,簡稱MPP)數據庫中的數據分布設計的首要目標是數據在系統各個節點間的均勻分布。特別地,協調多個處理器以并行處理程序,其中,每個處理器具有獨立的操作系統和存儲器資源。該系統可稱為“無共享”,其中數據庫的表分割為段,并在不同處理節點間分布,在處理節點間無數據共享發生。在處理節點間分割數據,使得每個處理節點具有一個來自數據庫各表中的行子集。每個處理節點僅處理其自己磁盤上的行。所述MPP數據庫包括協調系統,該系統攜帶有所述數據庫,但其本身不存儲數據庫記錄,而是存儲數據庫的元數據。所述協調系統能攜帶數據庫引擎和MPP系統的控制實體,能夠生成查詢計劃,通過處理節點協調查詢執行,并聚合系統范圍內的數據。所有處理節點和所述協調系統通過常見消息接口互聯在處理節點和協調器之間進行通信。
當數據庫查詢到達(例如,來自客戶端系統的)協調器時,根據數據分布計劃和優化的執行計劃劃分查詢并分配給處理節點。每個處理節點中的處理實體僅管理各自部分的數據。然而,這些處理實體可以在執行時與其他實體進行通信以交換任何所需的信息。一個查詢可劃分為多個子查詢,所述多個子查詢可在部分或全部所述處理節點上并行執行或按某種最佳順序執行。所述子查詢的結果可進行聚合并再處理,繼而額外的子查詢可根據所述結果執行。
在傳統MPP數據庫系統中,表項通常通過以下方法之一進行分布:哈希、隨機(例如,循環)、范圍或列表。目前,許多MPP數據庫通過哈希分布進行數據分布。在哈希分布中,記錄的鍵值哈希至桶,這些桶分配給處理節點。哈希分布使得可通過鍵來直接定位數據,其消耗的系統資源最少。這為哈希分布提供了高性能特征,這是因為根據鍵來查詢值是直接的,僅需要哈希值的計算來判斷哪個節點攜帶有該指定哈希桶。該查詢僅發送給該處理節點,不涉及其他處理節點。另一種MPP數據庫分布的常見方法是循環分布。在循環分布的情況下,在所述MPP數據庫的所有處理節點周圍進行數據分布,其有助于記錄在系統的這些節點間的均勻分布。然而,循環分布的缺點在于數據記錄的查詢區域。一般情況下,在查詢記錄期間,必須訪問該系統中的許多(若不是全部)節點,以定位指定記錄。因此,與采用哈希分布方案查詢MPP數據庫相比,對于采用傳統循環分布方案的MPP數據庫,系統資源利用效率更低。
采用哈希(以及范圍或列表)分布的MPP數據庫的一個潛在問題在于傾斜的發生。在鍵值的分布未傾斜的情況下,通常某些桶較大而其他桶較小。在大部分情況下,有可能將若干大大小小的桶放在一起,并將它們分配給一個處理節點,其一般目標在于每個節點均具有基本等大的總數據。然而,在某些情況下,數據分布可能會傾斜,包含單個鍵值的記錄不適合指定處理節點中的存儲設備,而其他處理節點可能具有充足的剩余空間。僅僅調整進行哈希分布的功能并不能解決該問題,需要額外的措施解決該傾斜,尤其是處理節點的存儲設備中的傾斜。數據傾斜也可能導致執行查詢所需的處理時間的增加,尤其是表連接的查詢所需的時間。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680011529.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種節能環保豬舍
- 下一篇:一種拼接緊固的重組竹馬廄板





