[發明專利]一種大數據系統中創建索引表的方法在審
| 申請號: | 201710879944.4 | 申請日: | 2017-09-26 |
| 公開(公告)號: | CN107562946A | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 黃禮成;張蓉;姜雪;耿鵬舒 | 申請(專利權)人: | 南京哈盧信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京眾聯專利代理有限公司32206 | 代理人: | 呂書桁 |
| 地址: | 210000 江蘇省南京市雨花臺*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 系統 創建 索引 方法 | ||
技術領域:
本發明涉及一種大數據系統中創建索引表的方法,屬于互聯網技術領域。
背景技術:
隨著互聯網數據規模的爆炸式增長,如何從海量的歷史、實時數據中快速獲取有用信息,變得越來越具有挑戰性。搜索是獲取信息最高效的途徑之一,因此也是各類網站、應用的基礎標配功能。開發者想在自己的產品中實現搜索功能一般都是基于某個開源搜索系統(如ElasticSearch、Solr、Sphinx)搭建搜索服務。然而,除了購買主機或托管服務器,從系統熟悉、服務搭建、功能定制,再到服務上線,通常需要耗費較長時間。
發明內容:
本發明的目的是針對上述存在的問題提供一種大數據系統中創建索引表的方法,便于從海量的歷史、實時數據中快速獲取有用信息。
上述的目的通過以下的技術方案實現:
一種大數據系統中創建索引表的方法,該方法包括:
(1)基于數據字典的元數據存儲,采用字典編碼來加快計算速度,其使得處理/查詢引擎可以直接在編碼好的數據上進行處理而不需要轉換數據,數據只有在返回結果給用戶的時候才轉換成用戶可讀的形式;
(2)多維數據聚集:在入庫時對數據按多個維度進行重新組織,使數據在“多維空間上更內聚”,在存儲上獲得更好的壓縮率,在計算上獲得更好的數據過濾效率;
(3)帶索引的列存文件結構:為多類場景設計了多個級別的索引,并融入了一些搜索的特性,有跨文件的多維索引,文件內的多維索引,每列的minmax索引,以及列內的倒排索引;索引和數據文件存放在一起,一部分索引本身就是數據,另一部分索引存放在文件的元數據結構中;
(4)列組:整體上是一種列存結構,用戶可以把某些不常作為過濾條件但又需要作為結果集返回的字段作為列組來存儲,經過編碼后會將這些字段使用行存的方式來存儲以提升查詢性能。
有益效果:
本發明便于從海量的歷史、實時數據中快速獲取有用信息。
具體實施方式:
實施例1:
本實施例的大數據系統中創建索引表的方法,該方法包括:
(1)基于數據字典的元數據存儲,重點放在對數據組織的優化上,通過數據組織最終是要提升IO性能和計算性能,全局字典編碼來加快計算速度,其使得處理/查詢引擎可以直接在編碼好的數據上進行處理而不需要轉換數據。數據只有在返回結果給用戶的時候才轉換成用戶可讀的形式。
(2)多維數據聚集:在入庫時對數據按多個維度進行重新組織,使數據在“多維空間上更內聚”,在存儲上獲得更好的壓縮率,在計算上獲得更好的數據過濾效率。
(3)帶索引的列存文件結構:為多類場景設計了多個級別的索引,并融入了一些搜索的特性,有跨文件的多維索引,文件內的多維索引,每列的minmax索引,以及列內的倒排索引等。其次,為了適應HDFS的存儲特點,索引和數據文件存放在一起,一部分索引本身就是數據,另一部分索引存放在文件的元數據結構中,他們都能隨HDFS提供本地化的訪問能力。
(4)列組:整體上是一種列存結構,但相對于行存來說,列存結構在應對明細數據查詢時會有數據還原代價高的問題,所以為了提升明顯數據查詢性能,支持列組的存儲方式,用戶可以把某些不常作為過濾條件但又需要作為結果集返回的字段作為列組來存儲,經過編碼后會將這些字段使用行存的方式來存儲以提升查詢性能。
本發明方案所公開的技術手段不僅限于上述技術手段所公開的技術手段,還包括由以上技術特征等同替換所組成 的技術方案。本發明的未盡事宜,屬于本領域技術人員的公知常識。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京哈盧信息科技有限公司,未經南京哈盧信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710879944.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





