[發明專利]一種基于Apache Kylin的數據查詢系統及其方法有效
| 申請號: | 201611005883.0 | 申請日: | 2016-11-15 |
| 公開(公告)號: | CN106599052B | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 韓卿;李楊 | 申請(專利權)人: | 上海跬智信息技術有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2453 |
| 代理公司: | 北京輕創知識產權代理有限公司 11212 | 代理人: | 楊立 |
| 地址: | 201203 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 apache kylin 數據 查詢 系統 及其 方法 | ||
本發明涉及一種基于Apache Kylin的數據查詢系統及其方法,該系統包括:數據源模塊、復合離線引擎模塊、在線查詢模塊依次連接;在線查詢模塊包括:SQL解析引擎模塊、元數據模塊、存儲索引模塊;還包括一種方法:S1,先從數據源中讀取多張關系表,構成一個數據模型;S2,多張關系表經過連接,為一張數據表,再排序;S3,排序后的數據表保存為分片存儲結構數據,以及為排序后的數據表計算多路復合索引;S4,SQL查詢解析,判斷該查詢屬于明細查詢,獲得結果。通過本發明構建的索引能夠被用于表格拼接查詢,包含多張數據表格時,索引起作用,加速查詢對任意復雜的查詢條件都可以做索引,精確定位索引,查詢時間大大減少。
技術領域
本發明涉及大規模數據查詢的技術領域,尤其涉及了一種基于Apache Kylin的數據查詢系統及其方法。
背景技術
隨著信息化技術的飛速發展,全球每時每刻都在產生海量的數據,如何利用如此大規模的數據獲取有用信息成為了至關重要的問題。該問題涉及大規模數據的存儲、處理和應用等等,針對大規模數據的高效查詢就是其中關鍵的一環。由于單臺計算機的存儲容量和計算資源的限制,其無法解決上述大規模數據處理的問題。與之相比,分布式計算在解決大規模數據方面具有顯著優勢,其利用多臺計算機的計算能力,同時并行地處理數據,以達到快速處理數據的目的。
傳統的大數據處理技術主要依靠三個關鍵技術:大規模并行處理,列式存儲,和倒排索引,主流的大數據查詢系統如Hive,SparkSQL,Impala,Presto等等都是采用這些技術,其主導思想都是通過計算機集群并行掃描和處理數據,同時針對存儲慢的特點使用索引、壓縮、列式存儲等技巧提升I/O吞吐率,Apache Hive的最大局限是O(N)的查詢時間復雜度,即查詢時間與被查詢數據總量呈至少線性的增長關系。原因在于查詢是在線計算的,如果數據量增長10倍,無論是并行計算、或是列式存儲、或是索引,都不可避免要處理至少10倍的計算量,如果考慮表的連接,計算量增長可能遠不止10倍,可能達到100倍以上,于是查詢時間也不可避免的增長至少10倍。這在數據量持續膨脹的今天和可預見的將來是無法接受的。
除了查詢時間復雜度以外,Apache Hive的索引也存在一些缺陷,列舉如下:Apache Hive構建的索引不能夠被用于表格拼接查詢,即當用戶的數據查詢范圍包含多張數據表格時,Apache Hive的索引不起作用,無法起到加速查詢的功能;Apache Hive的索引局限在單一的列上,無法對任意復雜的查詢條件做索引;Apache Hive缺乏對于特高基數據集的精確定位索引,查詢時需要掃描大部分原數據,查詢耗時隨數據量的增加而變長。
發明內容
本發明所要解決的技術問題是:由于目前的Apache Hive構建的索引不能夠被用于表格拼接查詢,即當用戶的數據查詢范圍包含多張數據表格時,Apache Hive的索引不起作用,無法起到加速查詢的功能;Apache Hive的索引局限在單一的列上,無法對任意復雜的查詢條件做索引;Apache Hive缺乏對于大量的數據的精確定位索引,查詢時需要掃描大部分原數據,查詢耗時隨數據量的增加而變長。
為解決上述技術問題,本發明公開了一種基于Apache Kylin的數據查詢系統,該系統包括:數據源模塊、復合離線引擎模塊、在線查詢模塊;
數據源模塊、復合離線引擎模塊、在線查詢模塊依次連接;數據源模塊的數據導入復合離線引擎模塊,經過復合離線引擎模塊處理后進入在線查詢模塊進行查詢;
在線查詢模塊包括:SQL解析引擎模塊、元數據模塊、存儲索引模塊;SQL解析引擎模塊與元數據模塊連接;SQL解析引擎模塊與存儲索引模塊連接,讀取存儲索引模塊中的數據;
元數據模塊分別與數據源模塊、SQL解析引擎模塊、存儲索引模塊連接;
復合離線引擎模塊與存儲索引模塊連接,將在復合離線引擎模塊先后計算或并行計算的數據輸入到存儲索引模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海跬智信息技術有限公司,未經上海跬智信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611005883.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于生成圖像標注庫的圖像自動標注的方法
- 下一篇:一種三維模型檢索方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





