[發明專利]基于Hadoop的分布式數據倉庫的構建方法在審
| 申請號: | 202210093431.1 | 申請日: | 2022-01-26 |
| 公開(公告)號: | CN114490890A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 荀皓;馮瑞 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/27 |
| 代理公司: | 上海德昭知識產權代理有限公司 31204 | 代理人: | 程宗德 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 hadoop 分布式 數據倉庫 構建 方法 | ||
本發明提供一種基于Hadoop的分布式數據倉庫的構建方法,其中,Flume用于對目標數據進行采集,Hive用于對采集得到的數據進行計算,從而形成離線的、分布式的數據倉庫,Zookeeper用于對數據倉庫的各類組件進行協調服務,并且數據倉庫基于預定的分層模型被分為了多層,因此,通過本發明的構建方法,能夠基于Hadoop文件系統搭建離線的、分布式的數據倉庫,并且通過對數據倉庫進行分層,能夠將原始的雜亂無章的大量數據進行聚合整理,并可根據業務需要得到多個數據指標,從而能夠使大型企業更方便、高效地對其海量數據進行有效的管理。
技術領域
本發明屬于軟件工程及大數據技術領域,涉及用于構建離線數據倉庫的方法,具體涉及一種基于Hadoop的分布式數據倉庫的構建方法。
背景技術
當一個企業的數據量很大時,管理這些數據會耗費大量的人力物力,且由于數據量大且數據的種類繁多,管理難度也很高。
離線數據倉庫的提出有望解決上述的問題,離線數據倉庫提供了標準的報表和圖表展示功能,離線數據倉庫內的數據來源于不同的業務處理系統,而離線數據倉庫系統展示的數據是整個企業的數據集成。離線數據倉庫支持多維分析,多維分析通過把一個實體的屬性定義成維度,使用戶能方便地從多個角度匯總、計算數據,增強了數據的分析處理能力,通過對不同維度數據的比較和分析,增強了信息處理能力。多維分析是數據倉庫系統在決策分析過程中非常有用的一個功能,而且離線數據倉庫是數據挖掘技術的關鍵和基礎。數據挖掘技術是在已有數據的基礎上,幫助用戶理解現有的信息,并且在當前信息的基礎上,對未來的企業狀況做出預測,在數據倉庫的基礎上進行數據挖掘,可以針對整個企業的發展狀況和未來前景做出較為完整、合理、準確的分析和預測。
雖然離線數據倉庫具有上述的多種優點,有望解決大型企業中海量數據的管理問題,然而,現有技術中,還缺乏構建離線的、分布式的數據倉庫的方法,對于技術人員來說,如何在Hadoop文件系統的基礎上構建可靠的分布式數據倉庫在技術上仍存在諸多困難。
發明內容
本發明是為解決上述問題而進行的,目的在于提供一種基于Hadoop的分布式數據倉庫的構建方法,通過對數據進行分層處理,構建出合理的離線數據倉庫,本發明采用了如下技術方案:
本發明提供了一種基于Hadoop的分布式數據倉庫的構建方法及裝置,用于基于服務器組中的目標數據構建離線數據倉庫,所述服務器組包括多個相互通信連接的服務器,多個所述服務器中均設置有Hadoop文件系統,其特征在于,包括:步驟S1,在存儲有所述目標數據的所述服務器上搭建Flume,用于對所述目標數據進行采集;步驟S2,在多個所述服務器上搭建分布式Kafka,用于接收所述Flume采集的所述目標數據;步驟S3,在其中一臺所述服務器上搭建Hive,用于對所述目標數據進行提取、轉化以及加載,從而形成所述數據倉庫;步驟S4,在其中若干臺所述服務器上搭建Zookeeper集群,用于為所述數據倉庫提供實時的協調服務;步驟S5,采用預定的分層模型對所述數據倉庫進行分層處理。
本發明提供的基于Hadoop的分布式數據倉庫的構建方法,還可以具有這樣的技術特征,其中,所述分層模型包括:原始數據層,用于保留所述目標數據的初始狀態;明細數據層,用于對所述目標數據進行標準化;數據服務層,用于對標準化后的所述目標數據進行聚合;以及數據產品層,用于對所述目標數據進行進一步聚合,從而為數據產品和數據分析提供高度聚合的數據。
本發明提供的基于Hadoop的分布式數據倉庫的構建方法,還可以具有這樣的技術特征,其中,所述明細數據層至少對所述目標數據進行以下操作:利用UDF函數或UDTF函數將所述原始數據層中的所述目標數據進行標準化,生成多種數據表;將所述數據表中用于描述相同對象但取值不同的字段按照預定的命名規則進行統一;根據預定的保留規則刪除所述數據表中的重復數據。
本發明提供的基于Hadoop的分布式數據倉庫的構建方法,還可以具有這樣的技術特征,其中,所述數據服務層面向主題進行所述聚合,采用星型或雪花型的數據結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210093431.1/2.html,轉載請聲明來源鉆瓜專利網。





