[發明專利]一種基于Spark的數據處理方法及裝置有效
| 申請號: | 201611242993.9 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN106777278B | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 戚永峰 | 申請(專利權)人: | 海爾優家智能科技(北京)有限公司 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/242 |
| 代理公司: | 工業和信息化部電子專利中心 11010 | 代理人: | 吳永亮 |
| 地址: | 100086 北京市海淀區知春*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 spark 數據處理 方法 裝置 | ||
本發明公開了一種基于Spark的數據處理方法及裝置,本發明是根據接收到的查詢信息映射該查詢信息在分布式文件系統HDFS上對應的數據源,再根據所述數據源及查詢條件重新生成預設的SQL語句,并根據該SQL語句在分布式文件系統HDFS上進行數據查詢得到查詢結果,最后將所述查詢結果輸出。也就是說,本發明的方法簡單易用,普通查詢者即可以方便地進行大數據平臺上的數據查詢、格式轉換,不要求查詢數據者有較高的技術知識,也不必編寫代碼開發程序。
技術領域
本發明涉及計算機技術領域,特別是涉及一種基于Spark的數據處理方法及裝置。
背景技術
在基于分布式系統基礎框架Hadoop的分布式文件系統HDFS上存在著海量的數據,這些數據以壓縮文件格式存放,對這些數據進行查詢時需要基于不同的維度,比如時間范圍、設備類型、數據類型等。而現有的方法是每次查詢數據都需要開發查詢程序,或者對數據進行一些映射等,這對查詢者技術要求比較高,并且用起來不方便。
發明內容
本發明提供了一種基于Spark的數據處理方法及裝置,以解決現有技術中在分布式文件系統HDFS上查詢數據需要開發查詢程序,對查詢者技術要求比較高的問題。
一方面,本發明提供了一種基于Spark的數據處理方法,該方法包括:接收用戶輸入的SQL語句;獲取所述用戶輸入的SQL語句中的查詢信息;根據查詢信息生成預先設置的SQL語句,并根據該SQL語句基于開源簇運算框架Spark在分布式文件系統HDFS上進行數據查詢得到查詢結果;將所述查詢結果輸出。
其中,所述根據查詢信息生成預先設置的SQL語句,具體包括:
將用戶輸入的SQL語句中的from后的內容識別為數據類型,“-t”字段后的內容識別為時間,“-p”字段后的內容識別為設備類型;
根據數據類型、時間和設備類型,生成預先設置的SQL語句。
進一步地,所述獲取所述用戶輸入的SQL語句中的查詢信息之后,還包括:對所述查詢信息進行分析驗證,并在驗證通過后,根據所述查詢信息生成預先設置的SQL語句;其中,所述查詢信息包括數據類型、時間和設備類型中的一種或多種。
進一步地,所述根據該SQL語句基于開源簇運算框架Spark在分布式文件系統HDFS上進行數據查詢得到查詢結果,具體包括:根據所述查詢信息映射該查詢信息在分布式文件系統HDFS上對應的數據源,將所述數據源與預設的臨時表名進行關聯,根據關聯后的臨時表名基于開源簇運算框架Spark在分布式文件系統HDFS上進行數據查詢得到查詢結果。
進一步地,該方法還包括:判斷根據查詢信息生成的預先設置的SQL語句是否有效,如果是,則根據所述SQL語句基于開源簇運算框架Spark在分布式文件系統HDFS上進行數據查詢得到查詢結果。
進一步地,所述將所述查詢結果輸出,具體包括:將所述查詢結果以指定格式進行輸出。
另一方面,本發明提供了一種基于Spark的數據處理裝置,該裝置包括:
接收單元,用于接收用戶輸入的SQL語句;
獲取單元,用于獲取所述用戶輸入的SQL語句中的查詢信息;
處理單元,用于根據查詢信息生成預先設置的SQL語句,并根據該SQL語句基于開源簇運算框架Spark在分布式文件系統HDFS上進行數據查詢得到查詢結果;
輸出單元,用于將所述查詢結果輸出。
其中,所述處理單元還用于,將用戶輸入的SQL語句中的from后的內容識別為數據類型,“-t”字段后的內容識別為時間,“-p”字段后的內容識別為設備類型,并根據數據類型、時間和設備類型,生成預先設置的SQL語句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于海爾優家智能科技(北京)有限公司,未經海爾優家智能科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611242993.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:家庭成員體征信息的處理方法
- 下一篇:一種時空關系分析系統





