[發(fā)明專利]分布式數(shù)據(jù)同步到數(shù)據(jù)倉庫的方法及裝置有效
| 申請?zhí)枺?/td> | 200910252471.0 | 申請日: | 2009-12-11 |
| 公開(公告)號: | CN102096685A | 公開(公告)日: | 2011-06-15 |
| 發(fā)明(設(shè)計)人: | 李學(xué)升 | 申請(專利權(quán))人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達(dá)信恒知識產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 英屬開曼群*** | 國省代碼: | 開曼群島;KY |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分布式 數(shù)據(jù) 同步 數(shù)據(jù)倉庫 方法 裝置 | ||
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)存儲領(lǐng)域,尤其涉及一種分布式數(shù)據(jù)同步到數(shù)據(jù)倉庫的方法及裝置。
背景技術(shù)
數(shù)據(jù)庫(Data-Base,DB)是按照某種數(shù)據(jù)模型組織的數(shù)據(jù)集合,該數(shù)據(jù)集合的數(shù)據(jù)結(jié)構(gòu)獨立于使用它的應(yīng)用程序;數(shù)據(jù)庫是面向事務(wù)設(shè)計的,是生產(chǎn)系統(tǒng)的數(shù)據(jù)平臺,一般存儲在線交易數(shù)據(jù)。數(shù)據(jù)倉庫(Data?Warehouse,DW)是集成的(Integrated)、相對穩(wěn)定的(Non-volatile)、反映歷史變化(Time?Variant)的數(shù)據(jù)集合;數(shù)據(jù)倉庫是面向主題(Subject?Oriented)設(shè)計的,是分析系統(tǒng)的數(shù)據(jù)平臺,一般存儲歷史數(shù)據(jù)。
生產(chǎn)系統(tǒng)的數(shù)據(jù)庫在訪問量和存儲的數(shù)據(jù)量越來越大的情況下,采取了將現(xiàn)有集中式數(shù)據(jù)庫升級為分布式數(shù)據(jù)庫的解決方案。集中式數(shù)據(jù)庫是指數(shù)據(jù)庫軟件部署在一臺存儲服務(wù)器中,相應(yīng)的,數(shù)據(jù)存儲在集中式數(shù)據(jù)庫的一個表中(本申請文件中,將集中式數(shù)據(jù)庫中的一個表稱為大表);分布式數(shù)據(jù)庫是指數(shù)據(jù)庫軟件部署在多臺獨立的存儲服務(wù)器中,相應(yīng)的,集中式數(shù)據(jù)庫的大表中存儲的全部數(shù)據(jù)按照特定的分表規(guī)則劃分到分布式數(shù)據(jù)庫的多個表中(本申請文件中,將分布式數(shù)據(jù)庫中的多個表稱為分表),也就是說分布式數(shù)據(jù)庫將一個邏輯表中的數(shù)據(jù)分布到多個物理表中。
生產(chǎn)系統(tǒng)通過采用分布式數(shù)據(jù)庫降低了對單臺存儲服務(wù)器的軟硬件要求,但是在數(shù)據(jù)倉庫的ETL(Extraction-Transformation-Loading,數(shù)據(jù)抽取、轉(zhuǎn)換和裝載)過程中,數(shù)據(jù)庫中的數(shù)據(jù)同步到數(shù)據(jù)倉庫的流程會發(fā)生巨大的變化。ETL是數(shù)據(jù)倉庫中的重要環(huán)節(jié),負(fù)責(zé)將分布式、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取到臨時中間層,進(jìn)行清洗、轉(zhuǎn)換、集成,最后裝載到數(shù)據(jù)倉庫中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。常用的ETL工具包括Informatica、Datastage、OWB、DTS等。在采用集中式數(shù)據(jù)庫的情況下,只需將集中式數(shù)據(jù)庫的大表中的數(shù)據(jù)同步到數(shù)據(jù)倉庫的一個表中即可,而在采用分布式數(shù)據(jù)庫的情況下,針對每一個分表在數(shù)據(jù)倉庫中建立對應(yīng)的表(本申請文件中,將數(shù)據(jù)倉庫中為各分表對應(yīng)建立的表稱為映射表),首先將生產(chǎn)系統(tǒng)中各分表的數(shù)據(jù)導(dǎo)出為文本,然后導(dǎo)入到數(shù)據(jù)倉庫對應(yīng)的映射表中,最后將數(shù)據(jù)倉庫各映射表中的數(shù)據(jù)合并到一個表中(本申請文件中,將數(shù)據(jù)倉庫中數(shù)據(jù)合并到的表稱為匯總表)。
在分布式數(shù)據(jù)庫的規(guī)模較大,也就是分表的數(shù)量較多的情況下,例如有的大表會分成1024個分表,將導(dǎo)致數(shù)據(jù)倉庫中表的數(shù)量暴漲,使得數(shù)據(jù)倉庫中表的維護(hù)數(shù)量和難度比較大,而且在同步流程中需要對數(shù)據(jù)倉庫中所有的映射表進(jìn)行合并操作,過程繁雜,使得同步流程耗費的時間較長,極易出錯??梢?,現(xiàn)有分布式數(shù)據(jù)同步到數(shù)據(jù)倉庫的方案,數(shù)據(jù)倉庫中表的維護(hù)數(shù)量和難度較大,同步流程復(fù)雜,耗費時間長,可靠性低,成為數(shù)據(jù)倉庫的ETL過程的瓶頸。
申請內(nèi)容
本申請?zhí)峁┮环N分布式數(shù)據(jù)同步到數(shù)據(jù)倉庫的方法及裝置,用以解決現(xiàn)有技術(shù)提供的方案中,數(shù)據(jù)倉庫中表的維護(hù)數(shù)量和難度較大,同步流程復(fù)雜,耗費時間長,可靠性低的問題。
本申請?zhí)峁┑姆植际綌?shù)據(jù)同步到數(shù)據(jù)倉庫的方法,所述方法包括:
將分布式數(shù)據(jù)庫的每一個分表中的增量數(shù)據(jù)導(dǎo)出為文本,并對應(yīng)生成文本文件;
將各文本文件中的文本導(dǎo)入到數(shù)據(jù)倉庫的增量表中;
根據(jù)特定的分表規(guī)則將增量表中的全部增量數(shù)據(jù)合并到數(shù)據(jù)倉庫的匯總表中,所述分表規(guī)則是指將集中式數(shù)據(jù)庫的大表中存儲的全部數(shù)據(jù)劃分到分布式數(shù)據(jù)庫的多個分表中時所遵循的規(guī)則。
本申請?zhí)峁┑姆植际綌?shù)據(jù)同步到數(shù)據(jù)倉庫的裝置,所述裝置包括導(dǎo)出單元、導(dǎo)入單元和匯總單元,其中:
所述導(dǎo)出單元,用于將分布式數(shù)據(jù)庫的每一個分表中的增量數(shù)據(jù)導(dǎo)出為文本,并對應(yīng)生成文本文件;
所述導(dǎo)入單元,用于將各文本文件中的文本導(dǎo)入到數(shù)據(jù)倉庫的增量表中;
所述匯總單元,用于根據(jù)特定的分表規(guī)則將增量表中的全部增量數(shù)據(jù)合并到數(shù)據(jù)倉庫的匯總表中,所述分表規(guī)則是指將集中式數(shù)據(jù)庫的大表中存儲的全部數(shù)據(jù)劃分到分布式數(shù)據(jù)庫的多個分表中時所遵循的規(guī)則。
本申請?zhí)峁┑姆植际綌?shù)據(jù)同步到數(shù)據(jù)倉庫的方法及裝置,數(shù)據(jù)倉庫的ETL過程中,將每一個分表中的增量數(shù)據(jù)導(dǎo)出為文本,再將文本直接導(dǎo)入到增量表中,最后將增量表中的全部增量數(shù)據(jù)合并到匯總表,徹底摒棄了在數(shù)據(jù)倉庫中為全部分表建立對應(yīng)數(shù)量的映射表的同步流程,同步任務(wù)只需在數(shù)據(jù)倉庫中新建兩個表(增量表和匯總表)即完成數(shù)據(jù)同步,省略了同步流程中的冗余操作,降低了耗費的時間,提升了同步效率和可靠性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團控股有限公司,未經(jīng)阿里巴巴集團控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910252471.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 用于進(jìn)行數(shù)據(jù)倉儲的設(shè)備和方法
- 用于進(jìn)行數(shù)據(jù)倉儲的系統(tǒng)和方法
- 同步構(gòu)建業(yè)務(wù)模型和數(shù)據(jù)倉庫模型及其映射的方法及系統(tǒng)
- 一種構(gòu)建數(shù)據(jù)倉庫表血緣關(guān)系圖的方法和裝置
- 一種數(shù)據(jù)倉庫性能測試方法及系統(tǒng)
- 一種老年健康監(jiān)護(hù)系統(tǒng)用數(shù)據(jù)及資源存儲層
- 數(shù)據(jù)模型生成方法和數(shù)據(jù)倉庫生成方法、裝置及電子設(shè)備
- 一種解耦合的彈性數(shù)據(jù)倉庫架構(gòu)
- 數(shù)據(jù)同步方法、裝置、存儲介質(zhì)和計算機設(shè)備
- 一種數(shù)據(jù)倉庫管理方法及系統(tǒng)





