[發(fā)明專利]一種數(shù)據(jù)多副本混合存儲(chǔ)方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201310368095.8 | 申請(qǐng)日: | 2013-08-21 |
| 公開(公告)號(hào): | CN103440301A | 公開(公告)日: | 2013-12-11 |
| 發(fā)明(設(shè)計(jì))人: | 王穎;狄靜舒;宋懷明;苗艷超;劉新春;邵宗有 | 申請(qǐng)(專利權(quán))人: | 曙光信息產(chǎn)業(yè)股份有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F11/14;H04L29/08 |
| 代理公司: | 北京新知遠(yuǎn)方知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11397 | 代理人: | 張艷 |
| 地址: | 300384 天津市西青區(qū)華*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 副本 混合 存儲(chǔ) 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種數(shù)據(jù)多副本混合存儲(chǔ)方法、數(shù)據(jù)多副本混合存儲(chǔ)系統(tǒng)及數(shù)據(jù)處理方法。
背景技術(shù)
在大數(shù)據(jù)處理領(lǐng)域,數(shù)據(jù)通常是分片存儲(chǔ)的,數(shù)據(jù)分區(qū)的目的不僅僅是將數(shù)據(jù)分布式存儲(chǔ)。為了進(jìn)一步保證可靠性,還會(huì)采用副本技術(shù)。目前,現(xiàn)有的大數(shù)據(jù)分區(qū)存儲(chǔ)技術(shù),針對(duì)一份數(shù)據(jù)的多個(gè)副本都是采用相同的分區(qū)方式。減少加載階段的計(jì)算量的同時(shí),如果數(shù)據(jù)的某個(gè)副本出錯(cuò)或者丟失時(shí),可直接拷貝其他存在的正確的副本即可恢復(fù);數(shù)據(jù)有修改時(shí),也可以直接對(duì)相應(yīng)的多個(gè)副本同時(shí)修改即可。在某些操作中,合理的數(shù)據(jù)分區(qū)可以減少數(shù)據(jù)處理過程中節(jié)點(diǎn)之間的數(shù)據(jù)傳輸開銷,進(jìn)而很大程度上提高數(shù)據(jù)分布式處理的效率。尤其是大表的連接操作,分區(qū)是很重要的技術(shù)方案。將連接操作按照相同的方式進(jìn)行分區(qū),對(duì)應(yīng)的分區(qū)內(nèi)部進(jìn)行連接操作,可以對(duì)多個(gè)分區(qū)同時(shí)進(jìn)行連接操作,這些連接操作可以在多個(gè)節(jié)點(diǎn)上并行執(zhí)行,同時(shí)不必有數(shù)據(jù)遷移和重分布的操作。這也是如今在內(nèi)存受限和網(wǎng)絡(luò)帶寬成為瓶頸的情況下,大表連接操作高效可行的方案。數(shù)據(jù)存儲(chǔ)和分區(qū)需要數(shù)據(jù)遷移,尤其是多節(jié)點(diǎn)之間的分布式存儲(chǔ)和分區(qū)需要消耗較高的網(wǎng)絡(luò)帶寬,查詢之前臨時(shí)進(jìn)行分區(qū)顯然會(huì)導(dǎo)致查詢效率大大降低,加載的時(shí)候采用預(yù)分區(qū)存儲(chǔ),可以一勞永逸地提高查詢效率。
例如:分布式文件系統(tǒng)HDFS,直接根據(jù)文件大小分塊存儲(chǔ),沒有考慮特定分區(qū)方式。即使構(gòu)建于之上的數(shù)據(jù)倉庫Hive和數(shù)據(jù)庫HBase提供了各自的分區(qū)功能,分布式文件系統(tǒng)HDFS的多個(gè)副本仍然是采用了相同的分區(qū)方式。還有,現(xiàn)有的NoSQL(也即Not?only?SQL)數(shù)據(jù)庫HBase僅采用了范圍劃分,也即Range分區(qū)這一種分區(qū)方式。而非關(guān)系數(shù)據(jù)庫Cassandra采用一致性Hash在多節(jié)點(diǎn)之間分布數(shù)據(jù)。
從以上說明可以看出,目前在大數(shù)據(jù)處理系統(tǒng)中,在數(shù)據(jù)加載時(shí)只會(huì)采用一種分區(qū)方式。如果連接的列和連接條件與分區(qū)不一致,仍然會(huì)導(dǎo)致數(shù)據(jù)大范圍的重分布操作,還是會(huì)導(dǎo)致很高的網(wǎng)絡(luò)帶寬開銷。也就是,如果分區(qū)是根據(jù)一列進(jìn)行的分區(qū),而連接操作是根據(jù)另一列進(jìn)行的,這種情況就是分區(qū)方式與連接操作的條件不一致,就需要大范圍的數(shù)據(jù)重分布操作。除此之外,很多業(yè)務(wù)可能需要針對(duì)同一批數(shù)據(jù)按照不同的分區(qū)進(jìn)行操作,例如,有的操作是按第一列進(jìn)行分組操作(data1?join?data2?on?col1或者group?by?col1),有的操作可能是按第二列進(jìn)行分組操作(data1?join?data2?on?col2或者group?by?col2)。因此,單一的分區(qū)方式在分區(qū)與連接操作不一致或同一批數(shù)據(jù)需要按不同分區(qū)進(jìn)行操作等場(chǎng)景就可能導(dǎo)致大范圍的數(shù)據(jù)重分布,在一定程度上限制了數(shù)據(jù)處理的效率。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提出了一種數(shù)據(jù)多副本混合存儲(chǔ)方法及系統(tǒng),增加了數(shù)據(jù)分區(qū)的多樣性,使得更多場(chǎng)景的按照分組進(jìn)行的一類數(shù)據(jù)處理可以按照分區(qū)并行執(zhí)行,以增加少量加載階段的計(jì)算量為代價(jià),提高了更多場(chǎng)景的數(shù)據(jù)處理的計(jì)算效率。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種數(shù)據(jù)多副本混合存儲(chǔ)方法,主要技術(shù)方案如下:
在數(shù)據(jù)加載階段,將原始數(shù)據(jù)進(jìn)行多次分區(qū),每次分區(qū)采用不同的分區(qū)方式;
將每次分區(qū)所得到的分區(qū)數(shù)據(jù)存儲(chǔ)到多個(gè)服務(wù)器上。
所述分區(qū)方式為范圍Range分區(qū)、散列Hash分區(qū)、列表分區(qū)或混合分區(qū)。
將每次分區(qū)所得到的分區(qū)數(shù)據(jù)按存儲(chǔ)負(fù)載均衡原則、訪問負(fù)載均衡原則或數(shù)據(jù)可靠性原則存儲(chǔ)到各服務(wù)器上。
本發(fā)明還提供了一種數(shù)據(jù)多副本混合存儲(chǔ)系統(tǒng),包括:
分區(qū)模塊,用于在數(shù)據(jù)加載階段,將原始數(shù)據(jù)進(jìn)行多次分區(qū),其中,每次分區(qū)采用不同的分區(qū)方式;
服務(wù)器,用于存儲(chǔ)每次分區(qū)所得到的分區(qū)數(shù)據(jù)。
所述分區(qū)模塊具體用于按照范圍Range分區(qū)、散列分區(qū)Hash分區(qū)、列表分區(qū)或混合分區(qū)方式將原始數(shù)據(jù)進(jìn)行多次分區(qū)。
所述服務(wù)器具體用于根據(jù)存儲(chǔ)負(fù)載均衡原則、訪問負(fù)載均衡原則或數(shù)據(jù)可靠性原則存儲(chǔ)每次分區(qū)所得到的分區(qū)數(shù)據(jù)。
本發(fā)明還提供了一種數(shù)據(jù)處理方法,包括以下步驟:
在數(shù)據(jù)加載階段,將多組數(shù)據(jù)進(jìn)行多次分區(qū),每次分區(qū)采用不同的分區(qū)方式,每次分區(qū)時(shí)各組數(shù)據(jù)的分區(qū)方式相同;
將各次分區(qū)所得到的的分區(qū)數(shù)據(jù)存儲(chǔ)到多個(gè)服務(wù)器中;
其中,所述多組數(shù)據(jù)在同一次分區(qū)中得到的具有相同屬性的分區(qū)數(shù)據(jù)存儲(chǔ)于同一服務(wù)器中。
所述具有相同屬性的分區(qū)數(shù)據(jù)為:各組數(shù)據(jù)每次分區(qū)后,不同組數(shù)據(jù)之間屬性值相同的分區(qū)數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于曙光信息產(chǎn)業(yè)股份有限公司,未經(jīng)曙光信息產(chǎn)業(yè)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310368095.8/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 一種用于數(shù)據(jù)網(wǎng)格的全分布式副本定位方法
- 一種基于核密度估計(jì)的副本選擇方法
- 一種分布式文件系統(tǒng)復(fù)制元數(shù)據(jù)的方法
- 一種對(duì)象存儲(chǔ)系統(tǒng)中對(duì)象一致性操作的方法
- 一種基于云計(jì)算的虛擬化容忍入侵的方法及裝置
- 副本部署方法、云服務(wù)器及存儲(chǔ)介質(zhì)
- 一種管理副本的方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 主備副本選舉方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種副本管理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 游戲副本的生成方法、裝置及設(shè)備
- 動(dòng)態(tài)存儲(chǔ)管理裝置及方法
- 一種存儲(chǔ)方法、服務(wù)器及存儲(chǔ)控制器
- 一種基于存儲(chǔ)系統(tǒng)的控制方法及裝置
- 一種信息的存儲(chǔ)控制方法
- 一種數(shù)據(jù)存儲(chǔ)方法及裝置
- 數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)存儲(chǔ)控制方法及裝置
- 存儲(chǔ)設(shè)備、存儲(chǔ)系統(tǒng)及存儲(chǔ)方法
- 物料存儲(chǔ)方法及系統(tǒng)
- 基于雙芯智能電表的數(shù)據(jù)分類存儲(chǔ)方法和裝置





