[發明專利]一種基于數據倉庫工具HIVE分區存儲使用和分析數據的方法及系統在審
| 申請號: | 201611186418.1 | 申請日: | 2016-12-20 |
| 公開(公告)號: | CN108205576A | 公開(公告)日: | 2018-06-26 |
| 發明(設計)人: | 陳益夢;范鋼;劉丹;田宜喜;謝宇;張玉魁 | 申請(專利權)人: | 航天信息股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京工信聯合知識產權代理有限公司 11266 | 代理人: | 郭一斐 |
| 地址: | 100195 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分區表 存儲分區 分區存儲 數據倉庫 原始數據 字段 分區 分析數據 時間段 存儲 數據處理效率 讀取 全局性數據 時間段設定 標識字段 處理數據 后續分析 文件分析 運算 覆蓋 記錄 分析 保證 | ||
1.一種基于數據倉庫工具HIVE分區存儲數據的方法,所述方法包括:
在數據倉庫中建立多個存儲分區和HIVE分區表,其中HIVE分區表中的每條記錄用于指示多個存儲分區中的每個存儲分區,根據不同時間段設定存儲分區標識字段;
對所述HIVE分區表中的原始數據進行分析,并將原始數據和分析結果數據分別存儲到對應分區字段的分區表中;以及
在分區表目錄下產生分區字段目錄,讀取對應分區字段目錄下的文件分析全局性數據。
2.根據權利要求1所述的方法,對所述HIVE分區表中的原始數據進行分析包括:
根據不同的設定時間段,對所述分區表中的數據進行分析。
3.根據權利要求1或2所述的方法,所述時間段為月。
4.根據權利要求1所述的方法,所述HIVE分區表基于分布式文件系統HDFS數據建立。
5.根據權利要求1所述的方法,所述讀取對應分區字段目錄下的文件分析全局性數據包括:
利用分析工具SPARKSQL讀取對應分區字段目錄下的文件分析全局性數據。
6.一種基于數據倉庫工具HIVE分區存儲使用和分析數據的系統,所述系統包括:
分區模塊,用于在數據倉庫中建立多個存儲分區和HIVE分區表,其中HIVE分區表中的每條記錄用于指示多個存儲分區中的每個存儲分區,根據不同時間段設定存儲分區標識字段;
存儲模塊,用于對所述HIVE分區表中的原始數據進行分析,并將原始數據和分析結果數據分別存儲到對應分區字段的分區表中;以及
分析模塊,用于在分區表目錄下產生分區字段目錄,讀取對應分區字段目錄下的文件分析全局性數據。
7.根據權利要求6所述的系統,所述存儲模塊還用于:
根據不同的設定時間段,對所述分區表中的數據進行分析。
8.根據權利要求6或7所述的系統,所述時間段為月。
9.根據權利要求6所述的系統,所述HIVE分區表基于分布式文件系統HDFS數據建立。
10.根據權利要求6所述的系統,所述分析模塊還用于:
利用分析工具SPARKSQL讀取對應分區字段目錄下的文件分析全局性數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天信息股份有限公司,未經航天信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611186418.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理方法和裝置
- 下一篇:一種數組構建、數組查詢的方法、裝置及電子設備





