[發明專利]一種優化維度組合的多維分析方法和系統在審
| 申請號: | 202210483036.4 | 申請日: | 2022-05-05 |
| 公開(公告)號: | CN114880343A | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 潘志威;李玉濤;魏曉飛;張楠;李宏鵬;栗濛;李飛;張韶 | 申請(專利權)人: | 河鋼數字技術股份有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/2455;G06F16/27;G06F9/54 |
| 代理公司: | 石家莊知住優創知識產權代理事務所(普通合伙) 13131 | 代理人: | 王麗巧 |
| 地址: | 050000 河北省石家莊*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 優化 維度 組合 多維 分析 方法 系統 | ||
1.一種優化維度組合的多維分析方法,其特征在于:所述多維分析方法包括以下步驟:
S1:使用Kylin OLAP引擎從數據源同步表元數據;
S2:使用Kylin OLAP引擎,根據表元數據設計數據模型,用于多維分析;
S3:使用Kylin OLAP引擎,基于數據模型,進一步選取業務所要分析的指標和影響這些指標的維度并設置分析指標的度量函數定義元數據,所述分析的指標稱為度量,所述元數據稱為cube元數據;
S4:使用計算引擎,根據S3訴述的cube元數據,計算所有的維度組合,所述維度組合是一個個結果集,每個結果集包含多行數據,每行數據是當前維度組合下分析指標根據度量函數計算得到的數值結果;
S5:統計各個維度組合的行數,并分析計算各個維度組合對整個多維分析的效益比,從中優化剔除不必要的維度組合;
S6:根據S5所述的剔除后的維度組合結果由存儲引擎存儲;
S7:寫SQL通過查詢引擎對維度組合結果進行簡單聚合得到結果并返回。
2.根據權利要求1所述的一種優化維度組合的多維分析方法,其特征在于:所述數據源包括:Hive數據源、Kafka數據源。
3.根據權利要求1所述的一種優化維度組合的多維分析方法,其特征在于:所述設計數據模型包括多維分析中常用的星型模型和雪花模型,所述星型模型是指度量所在的表與其他維度所在的表通過某個條件關聯,組成一個星型結構的物理視圖,所述雪花模型就是度量所在的表與其他維度所在的表關聯,而這些其他維度所在的表又被另外的表關聯,即在星型基礎上拓展成了雪花結構的物理視圖。
4.根據權利要求1所述的一種優化維度組合的多維分析方法,其特征在于:所述S3中,所述度量函數包括但不限于和(SUM)、最大值(MAX)、最小值(MIN)、計數(COUNT)、不同數據的行數(COUNT_DISDINCT)、前N項(TOP_N)。
5.根據權利要求1所述的一種優化維度組合的多維分析方法,其特征在于:所述計算引擎包括但不限于:MapReduce引擎和Spark引擎,S4中的計算所有的維度結果是指n個維度,會產生2n個不同的維度組合,維度組合有高有低,低維度組合是在高維度組合的基礎上聚合得到的,維度組合稱為cuboid,最高維度組合稱為base cuboid,維度組合稱為一個cube。
6.根據權利要求1所述的一種優化維度組合的多維分析方法,其特征在于:S5中所述優化剔除包括:
根據S5所述各個維度組合的行數,第一步計算各個維度組合的效益比;
根據所述效益比進行排序,第一次選出效益比最高的一個維度組合加入備選集合,并從剩余維度組合中繼續計算效益比,后續循環操作,每次加入效益比最高的一個維度組合,直至低于設定閾值后終止,所述閾值是事先設置的一個效益比值;
根據所述備選集合,剔除所有不在備選集合的維度組合。
7.根據權利要求1所述的一種優化維度組合的多維分析方法,其特征在于:所述S6中所述存儲引擎為HBase引擎。
8.根據權利要求1所述的一種優化維度組合的多維分析方法,其特征在于:所述S7中所述查詢引擎為Kylin內部查詢引擎。
9.一種優化維度組合的多維分析系統,其特征在于:所述多維分析系統包括:
數據源模塊,用于提供多維分析所需的數據,數據源模塊包括Hive數據倉庫和Kafka消息隊列;
構建模塊,用于數據獲取和建模,通過Kylin OLAP引擎,根據業務需要從數據源同步對應的表元數據,并根據表元數據設計數據模型,根據數據模型選取維度列和度量列并設置度量列的度量函數指標完成cube元數據的定義;
計算模塊,用于多維分析計算,根據cube元數據的定義,通過MapReduce計算引擎或Spark計算引擎完成對各個維度組合結果的計算;
優化模塊,用于優化維度組合結果,根據計算得到的維度組合結果;
存儲模塊,用于對優化的維度結果進行存儲,通過HBase存儲引擎,將優化結果存儲;
查詢模塊,解析用戶的SQL語句,從存儲引擎聚合查詢到維度組合結果,并返回所述維度組合結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河鋼數字技術股份有限公司,未經河鋼數字技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210483036.4/1.html,轉載請聲明來源鉆瓜專利網。





