[發明專利]實現數據查詢的方法和系統有效
| 申請號: | 201410183883.4 | 申請日: | 2014-04-30 |
| 公開(公告)號: | CN105022763B | 公開(公告)日: | 2019-03-26 |
| 發明(設計)人: | 鄭壯杰 | 申請(專利權)人: | 深圳市東方博雅科技有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 何平 |
| 地址: | 518000 廣東省深圳市南山區西麗留仙洞中山*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實現 數據 查詢 方法 系統 | ||
本發明提供了一種實現數據查詢的方法和系統。所述方法包括:一種實現數據查詢的方法,包括如下步驟:獲取查詢請求;定位基于Hive的數據文件分區中所述查詢請求對應的桶以及所述桶中的列;讀取所述定位得到的桶中的列所對應的數據。所述系統包括:請求獲取模塊,用于獲取查詢請求;定位模塊,用于定位基于Hive的數據文件分區中所述查詢請求對應的桶以及所述桶中的列;讀取模塊,用于讀取所述定位得到的桶中的列所對應的數據。采用本發明能提高數據的查詢效率。
技術領域
本發明涉及數據處理技術,特別是涉及一種實現數據查詢的方法和系統。
背景技術
隨著數據量以及數據價值的不斷增長,傳統的數據倉庫技術在各種方面都遇到了巨大的障礙,無法滿足大數據處理的需求。
Hive是目前互聯網企業中用于構建數據倉庫、處理海量數據最常用的開源框架,但是由于在進行數據存儲是未經過任何優化,導致其在很多場景下不能很好的體現其運行效率,特別是極大地影響了后期的查詢效率。
發明內容
基于此,有必要提供一種能提高查詢效率的實現數據查詢的方法。
此外,還有必要提供一種能提高查詢效率的實現數據查詢的系統。
一種實現數據查詢的方法,包括如下步驟:
獲取查詢請求;
定位基于Hive的數據文件分區中所述查詢請求對應的桶以及所述桶中的列;
讀取所述定位得到的桶中的列所對應的數據。
在其中一個實施例中,所述定位基于Hive的數據文件分區中所述查詢請求對應的桶以及所述桶中的列的步驟包括:
轉換所述查詢請求為MapReduce任務;
獲取元數據,根據所述元數據得到與所述MapReduce任務相關的基于Hive的數據文件分區;
根據定義的數據存儲結構對所述MapReduce任務中的查詢字段進行計算以得到相應的信息摘要值,并通過所述信息摘要值和預設的桶數量之間的取模得到與所述查詢字段對應的數據存儲位置,所述數據存儲位置用于指示所述查詢字段對應的桶和所述桶中的列。
在其中一個實施例中,所述讀取所述定位得到的桶中的列所對應的數據的步驟包括:
根據所述查詢字段對應的桶中的列進行數據加載,并對所述加載的數據進行處理。
在其中一個實施例中,所述定位基于Hive的數據文件分區中所述查詢請求對應的桶以及所述桶中的列的步驟之前,所述方法還包括:
接收輸入的原始數據,并將所述原始數據存儲為第一數據表結構;
對所述存儲為第一數據表結構的原始數據進行優化處理,以將優化處理所得到的數據存入配置文件所配置的基于Hive的數據文件分區中。
在其中一個實施例中,所述接收輸入的原始數據,并將所述原始數據存儲為第一數據表結構的步驟包括:
通過配置文件配置將所述原始數據存入包含分區信息的數據文件中,其中,被存入所述數據文件的原始數據以JSON格式存儲。
在其中一個實施例中,所述對所述加載存儲為第一數據表結構的原始數據進行優化處理,以將優化處理所得到的數據存入配置文件所配置的基于Hive的數據文件分區中的步驟包括:
逐一提取存儲為第一數據表結構的原始數據中的每一行JSON格式的數據;
通過包含分區信息的數據文件得到對所述第一數據表結構的原始數據進行存儲的基于Hive的數據文件的分區位置;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市東方博雅科技有限公司,未經深圳市東方博雅科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410183883.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:區域化的附加信息遞送方法及系統
- 下一篇:群組查找方法和裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





