[發明專利]數據查詢方法及裝置有效
| 申請號: | 201810501501.6 | 申請日: | 2018-05-23 |
| 公開(公告)號: | CN108874897B | 公開(公告)日: | 2019-09-13 |
| 發明(設計)人: | 杜威科;史寧寧 | 申請(專利權)人: | 新華三大數據技術有限公司 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/174;G06F16/14 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 王小梅 |
| 地址: | 450000 河南省鄭州市鄭州高新*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 目標數據塊 行偏移量 目標數據 數據查詢 數據塊 行數 數據查詢效率 數據獲取指令 標識信息 發送目標 獲取目標 獲取指令 數據對應 用戶需求 分頁 消耗 查詢 | ||
本公開涉及一種數據查詢方法及裝置,包括:獲取目標數據對應的第一行偏移量和第一長度;根據所述第一行偏移量和第一長度及所述各個數據塊的行數,確定所述目標數據對應的目標數據塊;根據所述第一行偏移量和第一長度及所述各個數據塊的行數,確定所述目標數據在所述目標數據塊中對應的第二行偏移量和第二長度;向所述目標數據塊所對應的執行器Executor發送目標數據獲取指令,所述目標數據獲取指令包括所述目標數據塊的標識信息,及所述目標數據塊對應的所述第二行偏移量及所述第二長度。本公開實施例提供的數據查詢方法及裝置能夠根據用戶需求直接從目標HDFS文件中獲取指定的數據,實現分頁查詢,并可以提高數據查詢效率,減少對內存的消耗。
技術領域
本公開涉及大數據技術領域,尤其涉及一種數據查詢方法及裝置。
背景技術
Spark SQL是一種基于Spark的分布式SQL引擎。
在通過Spark SQL(一種基于Spark的分布式SQL引擎)從HDFS(HadoopDistributed File System,分布式文件系統)中讀取數據時,相關技術僅能實現查詢前N行數據,而不能按照用戶需求查詢前N行至前N+M行的數據,因此無法實現分頁查詢。
發明內容
有鑒于此,本公開提出了一種數據查詢的方法,能夠根據用戶需求直接從HDFS中獲取指定的數據,實現分頁查詢,并可以提高數據查詢效率,減少對內存的消耗。
根據本公開的一方面,提供了一種數據查詢方法,應用于驅動器Driver,所述方法包括:
獲取目標數據對應的第一行偏移量和第一長度,其中,所述第一行偏移量指示目標數據在目標HDFS文件中的起始行,所述第一長度為所述目標數據的行數;
獲取所述目標HDFS文件中各個數據塊的行數;
根據所述第一行偏移量和第一長度及所述各個數據塊的行數,確定所述目標數據對應的目標數據塊;
根據所述第一行偏移量和第一長度及所述各個數據塊的行數,確定所述目標數據在所述目標數據塊中對應的第二行偏移量和第二長度;向所述目標數據塊所對應的執行器Executor發送目標數據獲取指令,所述目標數據獲取指令包括所述目標數據塊的標識信息,及所述目標數據塊對應的所述第二行偏移量及所述第二長度。
根據本公開的另一方面,提供了一種數據查詢方法,應用于執行器Executor,所述方法包括:
接收來自驅動器Driver的目標數據獲取指令,所述目標獲取指令中包括目標數據塊的標識信息,及所述目標數據塊對應的第二行偏移量及第二長度;
從目標HDFS文件中獲取所述目標數據塊;
根據所述目標數據塊對應的所述第二行偏移量及所述第二長度從所述目標數據塊中獲取所述目標數據。
根據本公開的另一方面,提供了一種數據查詢裝置,應用于驅動器Driver,所述裝置包括:
第一獲取模塊,用于獲取目標數據對應的第一行偏移量和第一長度,其中,所述第一行偏移量指示目標數據在目標HDFS文件中的起始行,所述第一長度為所述目標數據的行數;
第二獲取模塊,用于獲取所述目標HDFS文件中各個數據塊的行數;
第一確定模塊,用于根據所述第一行偏移量和第一長度及所述各個數據塊的行數,確定所述目標數據對應的目標數據塊;
第二確定模塊,用于根據所述第一行偏移量和第一長度及所述各個數據塊的行數,確定所述目標數據在所述目標數據塊中對應的第二行偏移量和第二長度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數據技術有限公司,未經新華三大數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810501501.6/2.html,轉載請聲明來源鉆瓜專利網。





