[發明專利]一種分布式并行數據庫系統的數據分區方法有效
| 申請號: | 201010239656.0 | 申請日: | 2010-07-28 |
| 公開(公告)號: | CN101916261A | 公開(公告)日: | 2010-12-15 |
| 發明(設計)人: | 張衛平;張松波;劉為懷 | 申請(專利權)人: | 北京播思軟件技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 王金雙 |
| 地址: | 100102 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 分布式 并行 數據庫 系統 數據 分區 方法 | ||
技術領域
本發明涉及一種分布式并行數據庫系統,尤其涉及一種分布式并行數據庫系統的數據分區方法。
背景技術
將數據存儲在數據庫中是常用的數據管理方法,特別是存儲在關系型數據庫中。我們可以根據所要管理的數據需求,選擇成熟的數據庫管理系統(DBMS:Database?Management?System),用標準的數據定義語言(如SQL?DDL),定義包含數據表(Table)或關系(Relation)、數據結構、索引、主鍵(Primary?Key)和外鍵(Foreign?Key)等信息的數據庫數據管理方案(Database?Schema),部署數據庫系統。而應用程序根據DBMS提供的數據操作語言(如SQL?DML),可以進行數據操作,如插入、查詢、更新、導入和導出等。
當前許多行業應用,產生和累積的數據量非常巨大,例如物聯網感知數據(Sensor?Data)、金融交易數據(Transaction?Data)、電子商務商品數據(GoodsData)、公司銷售數據(Sales?Data)等數據集(Data?Set)。這些數據集可能會達到幾百TBs(TeraBytes)或PBs(PetaBytes)這樣海量的規模,而且隨著時間的增長和業務的發展,產生數據的速度也可能會不斷提高。對這些海量數據的操作效率,如查詢速度,提出了更高的要求。
對于海量數據的管理,單節點的數據庫系統,受其計算或存儲能力的局限,已經不能勝任。分布式并行結構或極大規模并行處理(MPP:Massively?ParallelProcessing)結構的數據庫或數據倉庫系統可以提供更好的容量和性能方面的伸縮性和擴展性。其中的多節點無共享集群(Shared-nothing?Cluster)架構已被證實具有管理大規模數據的優勢。
無共享(Shared-nothing)多節點分布式并行數據庫系統架構圖如圖1所示,前端服務器實現一個全局分區器(Partitioner),它將各個數據表按照某種規則(如按各數據表特定屬性域的HASH值或時間段等)進行分區(Partitioning)或分片(Sharding),將數據分布存儲在多個不同的存儲和處理節點上(如圖中的節點1~節點N),并由每個節點上運行的本地數據庫實例(Local?Database?Instance),來管理根據分區器分配到該節點上的數據分區或分片;同時,一個運行在前端服務器上的全局優化查詢器(Global?Querier),對應用發起的特定查詢(Query),進行分析,并發送(Dispatch)給各節點數據庫系統實例,由各節點上的本地查詢器(Local?Querier)來處理,然后將結果返回給全局查詢器,進行進一步的處理,如合并(Merge)和排序(Sort)等操作,最后將結果返回給相應的應用。
分區器在對各數據表進行劃分時,采用諸如輪轉劃分(Round?RobinPartitioning)、散列劃分(Hash?Partitioning)、范圍劃分(Range?Partitioning)和鏈表劃分(List?Partitioning)等分區方法,將數據發送給相應的節點。由于采用的分區方法單獨作用于各個數據表,因此,對于針對多個數據表的較復雜的關聯查詢時,特別是涉及多表間連接(Join)操作的查詢,全局查詢器無論根據Join查詢判斷式(Predicate)所涉及的任何一個表的分區信息,將查詢發送給各分區所對應的節點上的局部查詢器處理時,對于Join判斷式所涉及的其他表,各節點都要從其他節點上的分區拷貝搬運數據。這種查詢時的節點間數據搬運也稱作動態再分區(Dynamic?Repartitioning),不僅會消耗網絡帶寬,也會產生傳輸耗時,極大地增加查詢的響應時間,影響查詢效率。
發明內容
為了解決現有技術存在的不足,本發明的目的在于提供一種分布式并行數據庫系統的數據分區方法,消除查詢時節點間數據的拷貝和搬運,提高查詢響應速度和效率。
為實現上述目的,本發明提供的一種分布式并行數據庫系統的數據分區方法,該方法包括以下步驟:
根據構建的分布式并行數據庫系統及分布規則,創建事實表和維度表,并將所述事實表紀錄和維度表紀錄插入到節點上;
將維度表紀錄復制到事實表的節點上;
對數據進行刪除和更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京播思軟件技術有限公司,未經北京播思軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010239656.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:視頻處理設備和視頻處理方法
- 下一篇:圖像處理裝置





