[發(fā)明專利]一種基于多數(shù)據(jù)源的ETL處理方法及裝置在審
| 申請?zhí)枺?/td> | 201710719640.1 | 申請日: | 2017-08-21 |
| 公開(公告)號: | CN107463709A | 公開(公告)日: | 2017-12-12 |
| 發(fā)明(設(shè)計)人: | 陳越晨 | 申請(專利權(quán))人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司11227 | 代理人: | 王寶筠 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 多數(shù) etl 處理 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于多數(shù)據(jù)源的ETL處理方法及裝置。
背景技術(shù)
隨著大數(shù)據(jù)業(yè)務(wù)的發(fā)展,對數(shù)據(jù)進行ETL(英文全稱:Extract-Transform-Load,中文全稱:數(shù)據(jù)倉庫技術(shù))處理非常的普遍。ETL處理的過程大致為從一個數(shù)據(jù)源中提取數(shù)據(jù),將提取的數(shù)據(jù)轉(zhuǎn)換為一個標準的格式,并加載到另外一個目標數(shù)據(jù)源的過程。目前,存在多種不同類型的數(shù)據(jù)源,例如:關(guān)系型Mysql、非關(guān)系型HBase、數(shù)據(jù)倉庫有Hive、文件存儲HDFS、具有存儲功能的文件索引服務(wù)Elasticsearch;而不同的數(shù)據(jù)類型的數(shù)據(jù)源可能會具有不同的接口類型。
現(xiàn)有技術(shù)中,針對不同的接口類型的數(shù)據(jù)源技術(shù)人員需要開發(fā)不同的ETL處理工具進行ETL處理,這樣不僅增加了技術(shù)開發(fā)人員的工作量,而且開發(fā)效率低。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供了一種基于多數(shù)據(jù)源的ETL處理方法,解決了現(xiàn)有技術(shù)中,針對不同的接口類型的數(shù)據(jù)源技術(shù)人員需要開發(fā)不同的ETL處理工具進行ETL處理,不僅增加了技術(shù)開發(fā)人員的工作量,而且開發(fā)效率低的問題。
本發(fā)明實施例提供了一種基于多數(shù)據(jù)源的ETL處理方法,所述方法包括:
選取對待處理數(shù)據(jù)進行ETL處理所需的第一目標數(shù)據(jù)源和第二目標數(shù)據(jù)源;其中,所述第一目標數(shù)據(jù)源為所述待處理數(shù)據(jù)的來源端,所述第二目標數(shù)據(jù)源為將所述待處理數(shù)據(jù)進行ETL處理后進行存儲的目的端;
接收用戶設(shè)置的ETL處理規(guī)則;
依據(jù)所述ETL處理規(guī)則,從所述第一目標數(shù)據(jù)源中提取待處理數(shù)據(jù),對所述待處理數(shù)據(jù)進行相應(yīng)的ETL處理,得到所述待處理數(shù)據(jù)的處理結(jié)果,并將所述處理結(jié)果加載到所述第二目標數(shù)據(jù)源。
可選的,還包括:
依據(jù)數(shù)據(jù)源的類型,添加所述數(shù)據(jù)源;其中,所述第一目標數(shù)據(jù)源和第二目標數(shù)據(jù)源是從添加的所述數(shù)據(jù)源中選取的。
可選的,所述依據(jù)數(shù)據(jù)源的類型,添加所述數(shù)據(jù)源,包括:
從預設(shè)的目的地址導入所述數(shù)據(jù)源;
設(shè)置所述所述數(shù)據(jù)源的相關(guān)信息;所述相關(guān)信息包括:數(shù)據(jù)源名稱、數(shù)據(jù)源類型和數(shù)據(jù)源中數(shù)據(jù)表的訪問方式;
將設(shè)置的所述數(shù)據(jù)源的相關(guān)信息進行保存、以及將所述數(shù)據(jù)源依據(jù)預設(shè)的規(guī)則進行保存。
可選的,所述接收用戶設(shè)置的ETL處理規(guī)則,包括:
接收用戶依據(jù)預設(shè)的結(jié)構(gòu)化查詢語言SQL的處理標準設(shè)置的處理規(guī)則。
可選的,將所述處理結(jié)果加載到所述第二目標數(shù)據(jù)源后,還可以包括:
展示對所述待處理數(shù)據(jù)進行ETL處理的結(jié)果。
本發(fā)明實施例還提供了一種基于多數(shù)據(jù)源的ETL處理裝置,其特征在于,所述裝置包括:
選取單元,用于選取對待處理數(shù)據(jù)進行ETL處理所需的第一目標數(shù)據(jù)源和第二目標數(shù)據(jù)源;其中,所述第一目標數(shù)據(jù)源為所述待處理數(shù)據(jù)的來源端,所述第二目標數(shù)據(jù)源為將所述待處理數(shù)據(jù)進行ETL處理后進行存儲的目的端;
接收單元,用于接收用戶設(shè)置的ETL處理規(guī)則;
處理單元,用于依據(jù)所述ETL處理規(guī)則,從所述第一目標數(shù)據(jù)源中提取待處理數(shù)據(jù),對所述待處理數(shù)據(jù)進行相應(yīng)的ETL處理,得到所述待處理數(shù)據(jù)的處理結(jié)果,并將所述處理結(jié)果加載到所述第二目標數(shù)據(jù)源。
可選的,所述裝置還可以包括:
添加單元,用于依據(jù)數(shù)據(jù)源的類型,添加所述數(shù)據(jù)源;其中,所述第一目標數(shù)據(jù)源和第二目標數(shù)據(jù)源是從添加的所述數(shù)據(jù)源中選取的。
可選的,所述添加單元包括:
導入子單元,用于從預設(shè)的目的地址導入所述數(shù)據(jù)源;
設(shè)置子單元,用于設(shè)置所述數(shù)據(jù)源的相關(guān)信息;所述相關(guān)信息包括:數(shù)據(jù)源名稱、數(shù)據(jù)源類型和數(shù)據(jù)源的數(shù)據(jù)表的訪問方式;
保存子單元,用于將設(shè)置的所述數(shù)據(jù)源的相關(guān)信息進行保存、以及將所述數(shù)據(jù)源依據(jù)預設(shè)的規(guī)則進行保存。
可選的,所述接收單元,包括:
接收子單元,用于接收用戶設(shè)置的依據(jù)預設(shè)的結(jié)構(gòu)化查詢語言SQL的處理標準設(shè)置的處理規(guī)則。
可選的,所述裝置還可以包括:
展示單元,用于展示對所述待處理數(shù)據(jù)進行ETL處理的結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀科技有限公司,未經(jīng)北京奇藝世紀科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710719640.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)抽取、轉(zhuǎn)換和加載的執(zhí)行方法和裝置
- 為ETL任務(wù)分配節(jié)點的方法和調(diào)度系統(tǒng)
- 一種用于調(diào)度ETL任務(wù)的方法與設(shè)備
- 一種基于元數(shù)據(jù)的ETL實現(xiàn)方法及系統(tǒng)
- 一種監(jiān)控任務(wù)運行的方法和設(shè)備
- 一種分布式數(shù)據(jù)ETL處理方法及裝置
- 一種基于多服務(wù)節(jié)點的數(shù)據(jù)處理系統(tǒng)及其方法
- ETL任務(wù)調(diào)度方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 一種基于元數(shù)據(jù)的ETL任務(wù)批量生成方法
- ETL文件拆分方法及裝置





