[發明專利]一種基于數據倉庫工具HIVE分區存儲使用和分析數據的方法及系統在審
| 申請號: | 201611186418.1 | 申請日: | 2016-12-20 | 
| 公開(公告)號: | CN108205576A | 公開(公告)日: | 2018-06-26 | 
| 發明(設計)人: | 陳益夢;范鋼;劉丹;田宜喜;謝宇;張玉魁 | 申請(專利權)人: | 航天信息股份有限公司 | 
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 | 
| 代理公司: | 北京工信聯合知識產權代理有限公司 11266 | 代理人: | 郭一斐 | 
| 地址: | 100195 北京市*** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 分區表 存儲分區 分區存儲 數據倉庫 原始數據 字段 分區 分析數據 時間段 存儲 數據處理效率 讀取 全局性數據 時間段設定 標識字段 處理數據 后續分析 文件分析 運算 覆蓋 記錄 分析 保證 | ||
本發明公開了一種基于數據倉庫工具HIVE分區存儲數據的方法,方法包括:在數據倉庫中建立多個存儲分區和HIVE分區表,其中HIVE分區表中的每條記錄用于指示多個存儲分區中的每個存儲分區,根據不同時間段設定存儲分區標識字段;對HIVE分區表中的原始數據進行分析,并將原始數據和分析結果數據分別存儲到對應分區字段的分區表中;以及在分區表目錄下產生分區字段目錄,讀取對應分區字段目錄下的文件分析全局性數據。本發明基于數據倉庫工具HIVE分區存儲使用和分析數據的方法針對分區存儲處理數據,可以對不同時間段的數據進行后續分析,并且可以同時存儲不同時間段的數據,保證原始數據不被覆蓋,提高了運算速度以及數據處理效率。
技術領域
本發明涉及大數據處理領域,更具體地,涉及一種基于HIVE分區存儲使用和分析數據的方法及系統。
背景技術
隨著時間的推移,計算機技術越發成熟,對數據存儲和分析的模式更是層出不窮。在大數據時代的背景下,處理的數據都以T級PB級來進行計算,傳統的技術對處理這樣數量級的數據已經漸漸力不從心,應運而生的就是大數據的存儲與分析新技術。
現有的大數據處理模式基本都是在HDFS上存儲數據,使用HIVE分析數據,這種數據存儲分析模式為兩種處理方式,第一種:全量處理,就是把所有數據同時放到HDFS上使用HIVE進行處理。第一種的處理方式因為涉及數據量大,因而處理速度很低。第二種:分時間段處理,就是把數據根據時間段一次處理一段時間的數據。第二種數據處理方式避免了第一種的速度慢,但是一次處理一部分的數據,下次導入數據時會覆蓋之前的數據,因為原數據被覆蓋,所以第二種處理數據的方式不可能實現跨時間段的數據處理。
因此,需要一種技術,提高大數據處理速度,以及實現跨時間段的全局性的數據處理。
發明內容
本發明提供了一種基于HIVE分區存儲使用和分析數據的方法及系統,以解決大數據處理速度慢,以及不能實現跨時間段的全局性的數據處理的問題。
為了解決上述問題,本發明提供了一種基于數據倉庫工具HIVE分區存儲數據的方法,所述方法包括:
在數據倉庫中建立多個存儲分區和HIVE分區表,其中HIVE分區表中的每條記錄用于指示多個存儲分區中的每個存儲分區,根據不同時間段設定存儲分區標識字段;
對所述HIVE分區表中的原始數據進行分析,并將原始數據和分析結果數據分別存儲到對應分區字段的分區表中;以及
在分區表目錄下產生分區字段目錄,讀取對應分區字段目錄下的文件分析全局性數據。
優選地,對所述HIVE分區表中的原始數據進行分析包括:
根據不同的設定時間段,對所述分區表中的數據進行分析。
優選地,所述時間段為月。
優選地,所述HIVE分區表基于分布式文件系統HDFS數據建立。
優選地,所述讀取對應分區字段目錄下的文件分析全局性數據包括:
利用分析工具SPARKSQL讀取對應分區字段目錄下的文件分析全局性數據。
基于本發明的另一方面,本發明提供一種基于數據倉庫工具HIVE分區存儲使用和分析數據的系統,所述系統包括:
分區模塊,用于在數據倉庫中建立多個存儲分區和HIVE分區表,其中HIVE分區表中的每條記錄用于指示多個存儲分區中的每個存儲分區,根據不同時間段設定存儲分區標識字段;
存儲模塊,用于對所述HIVE分區表中的原始數據進行分析,并將原始數據和分析結果數據分別存儲到對應分區字段的分區表中;以及
分析模塊,用于在分區表目錄下產生分區字段目錄,讀取對應分區字段目錄下的文件分析全局性數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天信息股份有限公司,未經航天信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611186418.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理方法和裝置
 - 下一篇:一種數組構建、數組查詢的方法、裝置及電子設備
 





