[發(fā)明專利]基于Hadoop的分布式數(shù)據(jù)倉庫的構(gòu)建方法在審

申請?zhí)枺?/td>	202210093431.1	申請日：	2022-01-26
公開（公告）號：	CN114490890A	公開（公告）日：	2022-05-13
發(fā)明（設(shè)計）人：	荀皓;馮瑞	申請（專利權(quán)）人：	復旦大學
主分類號：	G06F16/28	分類號：	G06F16/28;G06F16/27
代理公司：	上海德昭知識產(chǎn)權(quán)代理有限公司 31204	代理人：	程宗德
地址：	200433 ***	國省代碼：	上海;31
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	基于 hadoop 分布式數(shù)據(jù)倉庫構(gòu)建方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于Hadoop的分布式數(shù)據(jù)倉庫的構(gòu)建方法，用于基于服務(wù)器集群中的目標數(shù)據(jù)構(gòu)建數(shù)據(jù)倉庫，所述服務(wù)器集群包括多個相互通信連接的服務(wù)器，多個所述服務(wù)器中均設(shè)置有Hadoop文件系統(tǒng)，其特征在于，包括：

步驟S1，在存儲有所述目標數(shù)據(jù)的所述服務(wù)器上搭建Flume，用于對所述目標數(shù)據(jù)進行采集；

步驟S2，在多臺所述服務(wù)器上搭建分布式Kafka，用于接收所述Flume采集的所述目標數(shù)據(jù)；

步驟S3，在其中一臺所述服務(wù)器上搭建Hive，用于對所述目標數(shù)據(jù)進行提取、轉(zhuǎn)化以及加載，從而形成所述數(shù)據(jù)倉庫；

步驟S4，在其中若干臺所述服務(wù)器上搭建Zookeeper集群，用于為所述數(shù)據(jù)倉庫提供實時的協(xié)調(diào)服務(wù)；

步驟S5，采用預定的分層模型對所述數(shù)據(jù)倉庫進行分層處理。

2.根據(jù)權(quán)利要求1所述的基于Hadoop的分布式數(shù)據(jù)倉庫的構(gòu)建方法，其特征在于：

其中，所述分層模型包括：

原始數(shù)據(jù)層，用于保留所述目標數(shù)據(jù)的初始狀態(tài)；

明細數(shù)據(jù)層，用于對所述目標數(shù)據(jù)進行標準化；

數(shù)據(jù)服務(wù)層，用于對標準化后的所述目標數(shù)據(jù)進行聚合；以及

數(shù)據(jù)產(chǎn)品層，用于對所述目標數(shù)據(jù)進行進一步聚合，從而為數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析提供高度聚合的數(shù)據(jù)。

3.根據(jù)權(quán)利要求2所述的基于Hadoop的分布式數(shù)據(jù)倉庫的構(gòu)建方法，其特征在于：

其中，所述明細數(shù)據(jù)層至少對所述目標數(shù)據(jù)進行以下操作：

利用UDF函數(shù)或UDTF函數(shù)將所述原始數(shù)據(jù)層中的所述目標數(shù)據(jù)進行標準化，生成多種數(shù)據(jù)表；

將所述數(shù)據(jù)表中用于描述相同對象但取值不同的字段按照預定的命名規(guī)則進行統(tǒng)一；

根據(jù)預定的保留規(guī)則刪除所述數(shù)據(jù)表中的重復數(shù)據(jù)。

4.根據(jù)權(quán)利要求2所述的基于Hadoop的分布式數(shù)據(jù)倉庫的構(gòu)建方法，其特征在于：

其中，所述數(shù)據(jù)服務(wù)層面向主題進行所述聚合，采用星型或雪花型的數(shù)據(jù)結(jié)構(gòu)。

5.根據(jù)權(quán)利要求1所述的基于Hadoop的分布式數(shù)據(jù)倉庫的構(gòu)建方法，其特征在于：

其中，步驟S5中，采用MapReduce作為計算引擎進行所述分層處理。

6.根據(jù)權(quán)利要求1所述的基于Hadoop的分布式數(shù)據(jù)倉庫的構(gòu)建方法，其特征在于：

其中，步驟S2還包括：在所述分布式Kafka的消息隊列中創(chuàng)建兩個主題Topic，其中一個用于存放啟動日志，另一個用于存放事件日志。

7.根據(jù)權(quán)利要求1所述的基于Hadoop的分布式數(shù)據(jù)倉庫的構(gòu)建方法，其特征在于：

其中，所述Zookeeper集群包含有奇數(shù)個節(jié)點。

8.根據(jù)權(quán)利要求1所述的基于Hadoop的分布式數(shù)據(jù)倉庫的構(gòu)建方法，其特征在于，還包括：

步驟S6，將所述數(shù)據(jù)倉庫中想要的數(shù)據(jù)導入到MySQL中，從而便于用戶進行查詢或便于將所述數(shù)據(jù)提供給前端。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復旦大學，未經(jīng)復旦大學許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210093431.1/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種用于樣品水分測定的攤平裝置
下一篇：配送方法、裝置、配送機器人和存儲介質(zhì)

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】