[發(fā)明專利]一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法在審
| 申請?zhí)枺?/td> | 202010916301.4 | 申請日: | 2020-09-03 |
| 公開(公告)號: | CN112084191A | 公開(公告)日: | 2020-12-15 |
| 發(fā)明(設(shè)計)人: | 苑曉龍;賈德星;周正德;張暉;高傳集 | 申請(專利權(quán))人: | 浪潮云信息技術(shù)股份公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2453;G06F16/2458;G06F16/28 |
| 代理公司: | 濟南信達專利事務(wù)所有限公司 37100 | 代理人: | 馮春連 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 spark sql opentsdb 時序 數(shù)據(jù) 查詢 方法 | ||
1.一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法,其特征在于,其實現(xiàn)過程包括:
(1)通過Spark SQL內(nèi)置的DataFrame API自定義OpenTsdb數(shù)據(jù)源,具體包括:
(1.1)定義Spark SQL數(shù)據(jù)表的元數(shù)據(jù),
(1.2)訪問OpenTsdb底層存儲HBase表中的數(shù)據(jù),結(jié)合定義的元數(shù)據(jù)與“tsdb-meta”表中的數(shù)據(jù),解析tsdb表中的時序數(shù)據(jù),
(1.3)通過tsdb表,對每個Region分區(qū)進行統(tǒng)計分析,為Spark SQL的Catalyst優(yōu)化器提供算子下推、邏輯計劃生成、物理執(zhí)行計劃優(yōu)化提供數(shù)據(jù)支撐;
(2)通過Spark SQL語句查詢分析OpenTsdb中存儲的時序數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法,其特征在于,步驟(1.1)定義Spark SQL數(shù)據(jù)表的元數(shù)據(jù),其具體實現(xiàn)為:
定義一個實現(xiàn)Spark的數(shù)據(jù)源、讀取支持接口的時序數(shù)據(jù)源裝置,通過數(shù)據(jù)源選項提供HBase集群地址、tsdb表、tsdb-meta表、時間序列數(shù)據(jù)精度、數(shù)據(jù)表元數(shù)據(jù)描述各項參數(shù)信息,在創(chuàng)建讀取器方法中根據(jù)上述參數(shù)創(chuàng)建時序數(shù)據(jù)源讀取器裝置。
3.根據(jù)權(quán)利要求2所述的一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法,其特征在于,步驟(1.2)解析tsdb表中的時序數(shù)據(jù)時,需要定義一個實現(xiàn)數(shù)據(jù)源讀取器、下推過濾算子、報告統(tǒng)計數(shù)據(jù)、下推需求列、報告分區(qū)數(shù)據(jù)接口的時序數(shù)據(jù)源讀取器裝置;
時序數(shù)據(jù)源讀取器裝置實現(xiàn)讀取元數(shù)據(jù)方法,讀取數(shù)據(jù)表元數(shù)據(jù)描述信息創(chuàng)建結(jié)構(gòu)體類型實例,
時序數(shù)據(jù)源讀取器裝置實現(xiàn)計劃輸入分區(qū)方法中根據(jù)HBase數(shù)據(jù)庫中“tsdb”表的Region列表創(chuàng)建時序數(shù)據(jù)輸入分區(qū)實例集合列表,
時序數(shù)據(jù)源讀取器裝置實現(xiàn)過濾器下推方法支持算子下推。
4.根據(jù)權(quán)利要求3所述的一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法,其特征在于,時序數(shù)據(jù)源讀取器裝置實現(xiàn)過濾器下推方法中具體支持時序數(shù)據(jù)時間戳、標簽鍵值、指標三個字段的算子下推。
5.根據(jù)權(quán)利要求4所述的一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法,其特征在于,步驟(1.3)中,對每個Region分區(qū)進行統(tǒng)計分析,此時,
基于定義的時序數(shù)據(jù)源讀取器裝置,根據(jù)預(yù)估統(tǒng)計數(shù)據(jù)方法統(tǒng)計各個Region分區(qū)的數(shù)據(jù)量,根據(jù)Rowkey分析指標與Region分區(qū)的映射關(guān)系、時間戳與Region分區(qū)的映射關(guān)系、標簽鍵值對于Region分區(qū)的映射關(guān)系,為Catalyst優(yōu)化器優(yōu)化執(zhí)行計劃提供數(shù)據(jù)支撐。
6.根據(jù)權(quán)利要求5所述的一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法,其特征在于,時序數(shù)據(jù)源讀取器裝置采用廣播的方式將HBase中”tsdb-meta”表中的數(shù)據(jù)廣播到所有執(zhí)行讀取任務(wù)的執(zhí)行器中。
7.根據(jù)權(quán)利要求5所述的一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法,其特征在于,步驟(1.3)中,對每個Region分區(qū)進行統(tǒng)計分析,這一過程中,需要定義一個實現(xiàn)輸入分區(qū)接口的時序數(shù)據(jù)輸入分區(qū),此時,
每個HBase“tsdb”數(shù)據(jù)表Region分區(qū)對應(yīng)一個輸入分區(qū)實例,在創(chuàng)建分區(qū)器方法中創(chuàng)建時序數(shù)據(jù)分區(qū)器,優(yōu)化數(shù)據(jù)塊位置方法為執(zhí)行當前輸入分區(qū)讀取任務(wù)的執(zhí)行器指定最優(yōu)的數(shù)據(jù)塊位置,即為數(shù)據(jù)本地化讀取策略提供支持。
8.根據(jù)權(quán)利要求5所述的一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法,其特征在于,解析tsdb表中的時序數(shù)據(jù),并通過tsdb表對每個Region分區(qū)進行統(tǒng)計分析,這一過程中,需要定義一個實現(xiàn)輸入分區(qū)讀取器接口的時序數(shù)據(jù)輸入分區(qū)讀取器;
時序數(shù)據(jù)輸入分區(qū)讀取器通過直接獲取和下一個方法迭代讀取Region并解析時序數(shù)據(jù),讀取完畢后調(diào)用close()方法關(guān)閉資源。
9.根據(jù)權(quán)利要求1所述的一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法,其特征在于,用戶通過JDBC橋接器、控制臺、應(yīng)用程序中的任一方式作為入口,使用Spark SQL語句查詢分析OpenTsdb中存儲的時序數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮云信息技術(shù)股份公司,未經(jīng)浪潮云信息技術(shù)股份公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010916301.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Spark平臺性能自動優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計算機可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品
- 一種基于HADOOP的圖表監(jiān)控方法和裝置
- 一種監(jiān)控可視化方法及系統(tǒng)
- 一種基于OpenTSDB數(shù)據(jù)庫的服務(wù)器性能監(jiān)控數(shù)據(jù)分析方法及系統(tǒng)
- 數(shù)據(jù)存儲方法、裝置、服務(wù)器和存儲介質(zhì)
- 一種OpenTSDB共享存儲優(yōu)化方法
- 一種數(shù)據(jù)監(jiān)控方法與監(jiān)控平臺
- 多租戶管理系統(tǒng)和多租戶管理系統(tǒng)的實現(xiàn)方法
- 一種基于Spark SQL的OpenTsdb時序數(shù)據(jù)查詢方法
- 一種基于opentsdb的數(shù)據(jù)展示方法、設(shè)備及介質(zhì)
- 一種基于OpenTsdb實時同步時序數(shù)據(jù)至Kafka的方法





