[發明專利]一種基于維度建模的數據處理裝置及方法有效
| 申請號: | 202110477767.3 | 申請日: | 2021-04-29 |
| 公開(公告)號: | CN113254544B | 公開(公告)日: | 2023-01-03 |
| 發明(設計)人: | 王浩文;金莉;姜洪超 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/215 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 賀小停 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 維度 建模 數據處理 裝置 方法 | ||
本發明提供的一種基于維度建模的數據處理裝置及方法,包括數據源層、數據集成層、數據組件層和數據應用層,其中,所述數據源層的輸入端連接數據源,數據源層的輸出端依次連接數據集成層、數據組件層和數據應用層的輸入端;不再按照統一的主題劃分模式,依據數倉中各個層級的特點,各層采用不同的主題劃分模式,分別依據業務過程、“實體+行為”來進行對數據集成層、數據組件層的主題劃分,使用本發明的數據倉庫模型架構大大降低了資源成本,提高了數據時效性,增強了業務易用性。
技術領域
本發明屬于數據倉庫領域,具體涉及一種基于維度建模的數據處理裝置及方法。
背景技術
大數據時代下,對于任何一家互聯網外賣企業,都需要具備快速獲取、統計、分析數據的能力,從而從多個角度分析用戶,挖掘用戶信息,因此數據倉庫的建立是必然趨勢,如何以一種高效合理的數據倉庫模型架構,并借助相關工具來建立數據倉庫是互聯網外賣企業最關心的問題。
現有技術中,數據倉庫模型架構通常包含數據源層(ODS)、數據明細層(DWD)、數據服務層(DWS)、應用服務層(ADS)、維表層(DIM)五層。數據源層通常是將源頭數據原封不動的存儲,數據明細層主要是將數據源層的數據進行一些數據清洗和規范化的操作,數據服務層是整合某個業務過程的主題域的數據,形成寬表,應用服務層是直接對接數據應用使用的數據。但隨著業務的高速發展、數據使用場景越來越復雜、數據使用頻次也越來越高等各種情況,出現了以下三個問題:
1、分層機制不清晰,未能充分考慮到數據的穩定性、個性、共性、時效性幾個關鍵因素的影響,難以從全局指導各個業務或者生產鏈路的各個環節,且數據重復計算,增大資源成本。
2、主題劃分不合理,僅按照業務過程劃分主題,不能滿足數據倉庫多樣的聯機分析處理(OLAP)需求。
3、數據服務層和應用服務層數據膨脹嚴重,大量增加人力成本,且導致計算資源緊張,數據時效性低。會直接影響到后續核心報表、推薦、模型的產出,降低業務的數據分析效率,難以發揮更大的數據價值。
發明內容
本發明的目的在于提供一種基于維度建模的數據處理裝置及方法,解決了現有技術存在的上述不足。
為了達到上述目的,本發明采用的技術方案是:
本發明提供的一種基于維度建模的數據處理方法,包括以下步驟:
步驟1,獲取用戶行為日志數據的事實表;
步驟2,將步驟1中得到的事實表進行清洗過濾,將清洗后的數據分別進行歸因處理和公共維度建設處理,分別得到歸因處理數據、主題維度和環境維度;
步驟3,將清洗后的數據和歸因處理數據進行處理,得到面向業務過程的事實明細寬表;
步驟4,將面向業務過程的事實明細寬表進行處理,得到多維明細模型和輕度匯總模型;
步驟5,將多維明細模型和輕度匯總模型進行處理,得到邏輯模型和邏輯寬表,進而根據業務需要以及分析決策需求,完成數據挖掘和數據分析。
優選地,步驟2中,將步驟1中得到的事實表進行清洗過濾,具體方法是:
將步驟1中得到的事實表進行去噪、去重、異常值處理,得到清洗后的數據。
優選地,步驟3中,將清洗后的數據和歸因處理數據進行處理,得到面向業務過程的事實明細寬表,具體方法是:
首先,根據數據源層的主題維度對數據源層中的清洗后的數據、以及歸因處理數據進行劃分,得到多組主題數據;
其次,將主題數據中的業務過程對應的常用環境維度進行冗余處理,降低事實表和維度表之間的聯系,得到面向業務過程的事實數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110477767.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種中醫體質判定的方法及設備
- 下一篇:一種用于激光鉆孔機的上下料裝置





