[發明專利]一種基于Hive的高校數據倉庫分層設計方法在審
| 申請號: | 201811098136.5 | 申請日: | 2018-09-20 |
| 公開(公告)號: | CN109189764A | 公開(公告)日: | 2019-01-11 |
| 發明(設計)人: | 楊連群 | 申請(專利權)人: | 北京桃花島信息技術有限公司 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F16/28 |
| 代理公司: | 合肥中谷知識產權代理事務所(普通合伙) 34146 | 代理人: | 洪玲 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據倉庫 事實表 分層設計 大數據 非結構化數據 數據存儲層 數據匯總層 數據應用層 獲取數據 可擴展性 模型設計 三層分析 數據抽取 業務需求 最小粒度 分區表 建模法 結構化 構建 建模 維度 星型 分區 分析 倉庫 靈活 | ||
1.一種基于Hive的高校數據倉庫分層設計方法,其特征在于,包括以下步驟:
步驟1,獲取數據,從學工系統、教務系統、一卡通系統、資助系統、上網行為管理系統、校園無線系統、人事系統、考勤系統、門禁系統、宿舍管理系統、財務系統,獲取結構化與非結構化的數據;
步驟2,使用ETL工具進行數據抽取,將獲取的結構化、非結構化數據同步到Hive平臺上;
步驟3,使用Hive構造數據倉庫,將數據倉庫分為ODS數據存儲層、DWD數據明細層、DW數據匯總層、DWA數據應用層;
其中ODS數據存儲層為數據緩存層,用于存放獲取的原始數據,保留一個固定長度時間,不對數據做任何處理;
其中DWD數據明細層用于對ODS數據存儲層的數據進行清洗、轉碼、增量轉全量,對表名字與字段名進行統一規范后存儲;
其中DW數據匯總層用于面向主題組織數據,按業務需要構造多維模型數據,進行相關主題域內的數據整合、相關業務的拆分、匯總;
其中DWA數據應用層用于根據業務應用需要構造多維模型數據,所得數據直接用于分析展現,該層也承擔專題類數據模型的建設;
步驟4,數據倉庫建模,確定分析主題,使用維度建模法,使用最小粒度設計維表,設計事實表;
設計事實表,分為事實表-非分區表,和分區事實表。
2.根據權利要求1所述的一種基于Hive的高校數據倉庫分層設計方法,其特征在于,步驟2具體包括以下步驟:
步驟2.1,ETL工具選擇開源Kettle或者Sqoop;
步驟2.2,抽取方式的選擇,針對數據量少,改動量大的數據源采用全量同步抽取,對數據量大,改動小的數據源采取增量同步抽取;
基于源表日期時間戳或者更新時間作為分區字段,按照時間分區進行增量抽取,若沒有時間類型字段則采用全量抽取;
步驟2.3,對數據進行規范化、驗證、清洗;
步驟2.4,記錄ETL抽取的日志;
步驟2.5,ETL工具發出異常通知時,使用ETL內置工具捕捉后發送郵件給維護人員。
3.根據權利要求1所述的一種基于Hive的高校數據倉庫分層設計方法,其特征在于,步驟4包括以下分步驟:
步驟4.1,確定分析主題,所述分析主題包括一個公共維度主題,還包括學生主題、學業主題、宿舍主題、消費主題、資助主題、門禁主題、考勤主題、無線主題、上網主題;
公共維度主題包括時間維度、區域維度、國標及校標維度;
步驟4.2,使用最小粒度來設計維表,選取維度時將實體作為一個對象,把與該對象相關的重要屬性提取,作為獨立維度;
步驟4.3,設計事實表,分區事實表內存放改動小,數據量大的數據;事實表-非分區表存放學生基礎信息。
4.根據權利要求3所述的一種基于Hive的高校數據倉庫分層設計方法,其特征在于,學生主題核心內容是學生的基本情況,具體分析學生所在生源地、性別、民族、政治面貌、健康狀況、班級、專業、院系、學年、學制、學歷;
其中學業主題核心內容是學生成績學習信息,具體分析學生課程信息、成績、學分、績點、學習時長和圖書借閱信息;
其中宿舍主題核心內容是學生住宿信息,具體分析包括學生所在宿舍樓、房間號、床位和宿舍用電情況;
其中消費主題核心內容是學生一卡通消費情況,具體分析學生在食堂、超市、圖書館、水果店、開水房、機房、醫院、浴室消費類型的整體情況;
其中資助主題核心內容是學生獲得獎助信息情況,具體分析包括獎學金、助學金、助學貸款、勤工助學、學費減免類型的資助情況;
其中門禁主題核心內容是學生的出入通行情況,具體分析模塊包括宿舍進出門禁數據、圖書館進出門禁數據;
其中考勤主題核心內容為學生上課情況,具體分析包括是否按時上課,出勤率、遲到、早退,曠課情況;
其中無線主題核心內容為學生行為軌跡,通過學生連接上網終端的時間和位置,分析學生一天中的行為軌跡,例如宿舍-食堂-教學樓-圖書館-食堂—開水房—浴室類似的行為軌跡;
其中上網主題核心為學生上網行為情況,具體分析包括上網時長、上網類型、上網偏好、搜索關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京桃花島信息技術有限公司,未經北京桃花島信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811098136.5/1.html,轉載請聲明來源鉆瓜專利網。





