[發(fā)明專利]一種基于Spark SQL臨時(shí)視圖的快速ETL方法在審
| 申請(qǐng)?zhí)枺?/td> | 202211580856.1 | 申請(qǐng)日: | 2022-12-09 |
| 公開(公告)號(hào): | CN115809294A | 公開(公告)日: | 2023-03-17 |
| 發(fā)明(設(shè)計(jì))人: | 張永強(qiáng);王冬冬;鄧唯玉;王凱;張雄彪;李顯鋒;陶天林;李莊莊 | 申請(qǐng)(專利權(quán))人: | 武漢達(dá)夢(mèng)數(shù)據(jù)技術(shù)有限公司 |
| 主分類號(hào): | G06F16/25 | 分類號(hào): | G06F16/25;G06F16/22 |
| 代理公司: | 武漢智嘉聯(lián)合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 42231 | 代理人: | 張璐 |
| 地址: | 430000 湖北省武漢市東湖新技術(shù)*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 spark sql 臨時(shí) 視圖 快速 etl 方法 | ||
1.一種基于Spark SQL臨時(shí)視圖的快速ETL方法,其特征在于,包括:
根據(jù)目標(biāo)ETL步驟,構(gòu)建所述ETL步驟對(duì)應(yīng)的SQL語(yǔ)句,并基于所述SQL語(yǔ)句建立與所述ETL步驟對(duì)應(yīng)的流程節(jié)點(diǎn);
根據(jù)所述流程節(jié)點(diǎn),構(gòu)建目標(biāo)流程DAG圖;
遍歷所述目標(biāo)流程DAG圖,得到多個(gè)所述流程節(jié)點(diǎn)的拓?fù)湫蛄校?/p>
基于所述拓?fù)湫蛄校来瓮ㄟ^Spark根據(jù)所述SQL語(yǔ)句,建立所述流程節(jié)點(diǎn)對(duì)應(yīng)的臨時(shí)視圖,根據(jù)最后得到的所述臨時(shí)視圖處理數(shù)據(jù),并向目標(biāo)數(shù)據(jù)庫(kù)輸出目標(biāo)數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基于Spark SQL臨時(shí)視圖的快速ETL方法,其特征在于,所述根據(jù)目標(biāo)ETL步驟,構(gòu)建所述ETL步驟對(duì)應(yīng)的SQL語(yǔ)句,并基于所述SQL語(yǔ)句建立與所述ETL步驟對(duì)應(yīng)的流程節(jié)點(diǎn),包括:
建立目標(biāo)節(jié)點(diǎn)的節(jié)點(diǎn)ID,并根據(jù)所述目標(biāo)節(jié)點(diǎn)的節(jié)點(diǎn)ID,建立所述目標(biāo)節(jié)點(diǎn)的視圖名;
根據(jù)所述ETL步驟,建立節(jié)點(diǎn)類型;
根據(jù)所述目標(biāo)ETL步驟的動(dòng)作內(nèi)容和所述目標(biāo)節(jié)點(diǎn)的視圖名,構(gòu)建所述目標(biāo)節(jié)點(diǎn)的SQL語(yǔ)句;
根據(jù)所述目標(biāo)節(jié)點(diǎn)的節(jié)點(diǎn)ID、所述節(jié)點(diǎn)類型和所述目標(biāo)節(jié)點(diǎn)的SQL語(yǔ)句,構(gòu)建所述目標(biāo)節(jié)點(diǎn)。
3.根據(jù)權(quán)利要求2所述的基于Spark SQL臨時(shí)視圖的快速ETL方法,其特征在于,所述根據(jù)所述目標(biāo)ETL步驟的動(dòng)作內(nèi)容和所述目標(biāo)節(jié)點(diǎn)的視圖名,構(gòu)建所述目標(biāo)節(jié)點(diǎn)的SQL語(yǔ)句,包括;
獲取所述目標(biāo)節(jié)點(diǎn)的上游節(jié)點(diǎn)的視圖名;
根據(jù)所述目標(biāo)ETL步驟的動(dòng)作內(nèi)容、所述目標(biāo)節(jié)點(diǎn)的上游節(jié)點(diǎn)的視圖名和所述目標(biāo)節(jié)點(diǎn)的視圖名,構(gòu)建所述目標(biāo)節(jié)點(diǎn)的SQL語(yǔ)句。
4.根據(jù)權(quán)利要求3所述的基于Spark SQL臨時(shí)視圖的快速ETL方法,其特征在于,所述根據(jù)所述目標(biāo)節(jié)點(diǎn)的節(jié)點(diǎn)ID、所述節(jié)點(diǎn)類型和所述目標(biāo)節(jié)點(diǎn)的SQL語(yǔ)句,構(gòu)建所述目標(biāo)節(jié)點(diǎn),包括:
根據(jù)所述目標(biāo)ETL步驟,建立JDBC參數(shù);
根據(jù)所述目標(biāo)節(jié)點(diǎn)的節(jié)點(diǎn)ID、所述節(jié)點(diǎn)類型、所述目標(biāo)節(jié)點(diǎn)的SQL語(yǔ)句和所述JDBC參數(shù),構(gòu)建所述目標(biāo)節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求4所述的基于Spark SQL臨時(shí)視圖的快速ETL方法,其特征在于,所述流程節(jié)點(diǎn)包括數(shù)據(jù)讀取節(jié)點(diǎn)、數(shù)據(jù)處理節(jié)點(diǎn)和數(shù)據(jù)輸出節(jié)點(diǎn);所述基于所述拓?fù)湫蛄校来瓮ㄟ^Spark根據(jù)所述SQL語(yǔ)句,建立所述流程節(jié)點(diǎn)對(duì)應(yīng)的臨時(shí)視圖,根據(jù)最后得到的所述臨時(shí)視圖處理數(shù)據(jù),并向目標(biāo)數(shù)據(jù)庫(kù)輸出目標(biāo)數(shù)據(jù),包括:
根據(jù)所述數(shù)據(jù)讀取節(jié)點(diǎn),構(gòu)建dataframe數(shù)據(jù)集,并根據(jù)所述數(shù)據(jù)讀取節(jié)點(diǎn)對(duì)應(yīng)的SQL語(yǔ)句,將所述dataframe數(shù)據(jù)集注冊(cè)至Spark SQL中,得到數(shù)據(jù)讀取臨時(shí)視圖;
根據(jù)所述數(shù)據(jù)讀取視圖,基于所述拓?fù)湫蛄校来胃鶕?jù)每個(gè)所述數(shù)據(jù)處理節(jié)點(diǎn)的SQL語(yǔ)句,構(gòu)建每個(gè)所述處理節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)處理臨時(shí)視圖;
根據(jù)最終得到的所述數(shù)據(jù)處理臨時(shí)視圖,基于所述數(shù)據(jù)輸出節(jié)點(diǎn)對(duì)應(yīng)的SQL語(yǔ)句處理數(shù)據(jù),并向目標(biāo)數(shù)據(jù)庫(kù)輸出目標(biāo)數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的基于Spark SQL臨時(shí)視圖的快速ETL方法,其特征在于,所述基于所述拓?fù)湫蛄校来胃鶕?jù)每個(gè)所述數(shù)據(jù)處理節(jié)點(diǎn)的SQL語(yǔ)句,構(gòu)建每個(gè)所述處理節(jié)點(diǎn)對(duì)應(yīng)的數(shù)據(jù)處理臨時(shí)視圖,包括:
根據(jù)所述拓?fù)湫蛄校@取所述數(shù)據(jù)處理節(jié)點(diǎn)的上游節(jié)點(diǎn)的臨時(shí)視圖;
基于所述數(shù)據(jù)處理節(jié)點(diǎn)的上游節(jié)點(diǎn)的臨時(shí)視圖,根據(jù)所述數(shù)據(jù)處理節(jié)點(diǎn)對(duì)應(yīng)的SQL語(yǔ)句,構(gòu)建所述數(shù)據(jù)處理臨時(shí)視圖;
其中,所述拓?fù)湫蛄兄惺讉€(gè)所述數(shù)據(jù)處理節(jié)點(diǎn)的上游視圖為所述數(shù)據(jù)讀取臨時(shí)視圖。
7.根據(jù)權(quán)利要求1所述的基于Spark SQL臨時(shí)視圖的快速ETL方法,其特征在于,所述遍歷所述目標(biāo)流程DAG圖,得到多個(gè)所述流程節(jié)點(diǎn)的拓?fù)湫蛄校ǎ?/p>
建立棧,并將所述目標(biāo)流程DAG圖中出度為零的流程節(jié)點(diǎn)入棧;
獲取棧頂?shù)牧鞒坦?jié)點(diǎn),判斷所述棧頂?shù)牧鞒坦?jié)點(diǎn)是否存在上游節(jié)點(diǎn),若是,則將所述棧頂?shù)牧鞒坦?jié)點(diǎn)的上游節(jié)點(diǎn)入棧,若否,則將所述棧頂?shù)牧鞒坦?jié)點(diǎn)出棧;
根據(jù)所述流程節(jié)點(diǎn)的出棧順序,得到所述拓?fù)湫蛄小?/p>
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢達(dá)夢(mèng)數(shù)據(jù)技術(shù)有限公司,未經(jīng)武漢達(dá)夢(mèng)數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211580856.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種Spark平臺(tái)性能自動(dòng)優(yōu)化方法
- 一種Spark作業(yè)的提交方法及裝置
- Spark性能優(yōu)化控制方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- spark任務(wù)的提交方法、裝置和服務(wù)器
- Spark任務(wù)的提交方法、系統(tǒng)、客戶端及服務(wù)端
- 一種提交并守護(hù)spark任務(wù)的方法及裝置
- 用戶任務(wù)的處理方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- Spark任務(wù)處理方法及裝置
- 一種Spark應(yīng)用部署管理方法及相關(guān)設(shè)備
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品
- 一種SQL注入檢測(cè)方法及裝置
- SQL檢查方法與裝置
- 一種結(jié)構(gòu)化查詢語(yǔ)言性能優(yōu)化方法及系統(tǒng)
- 使用SQL實(shí)現(xiàn)MDX查詢效果的方法和裝置
- SQL語(yǔ)句處理方法和系統(tǒng)
- 一種SQL審核方法與系統(tǒng)
- 異常SQL語(yǔ)句檢測(cè)方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- SQL代碼信息顯示方法、裝置、計(jì)算機(jī)裝置及存儲(chǔ)介質(zhì)
- PaaS平臺(tái)中SQL執(zhí)行引擎的適配方法及裝置
- 一種SQL預(yù)執(zhí)行優(yōu)化的方法、裝置、設(shè)備及可讀介質(zhì)
- 一種圖像處理方法和裝置
- 運(yùn)輸轉(zhuǎn)運(yùn)平臺(tái)臨時(shí)在線支撐結(jié)構(gòu)及其使用方法
- 一種臨時(shí)限速命令的處理方法及裝置
- 一種臨時(shí)權(quán)限管理方法及裝置
- 一種大數(shù)據(jù)環(huán)境下的臨時(shí)社交網(wǎng)絡(luò)確定方法及系統(tǒng)
- 一種快速制作臨時(shí)冠的裝置
- 一種快速制作多類型臨時(shí)冠的器械
- 臨時(shí)賬戶的管理方法、電子設(shè)備、管理終端及存儲(chǔ)介質(zhì)
- 臨時(shí)密碼生成方法、裝置及系統(tǒng)
- 一種前牙殘根狀態(tài)下的臨時(shí)樁冠制作方法及臨時(shí)樁冠





