[發明專利]一種數據加載方法、裝置及系統在審
| 申請號: | 201610799125.4 | 申請日: | 2016-08-31 |
| 公開(公告)號: | CN107784039A | 公開(公告)日: | 2018-03-09 |
| 發明(設計)人: | 程亦超 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 蘇培華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 加載 方法 裝置 系統 | ||
技術領域
本申請涉及數據處理技術領域,特別是涉及一種數據加載方法、一種數據加載裝置,以及,一種數據加載系統。
背景技術
ETL(Extraction-Transformation-Loading)是數據抽取extract、轉換transform和加載load的過程,是構建數據倉庫的重要一環,用戶從數據庫抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。
傳統的ETL工具和軟件解決了數據倉庫中從一個數據源到一個目的端的數據導入問題,例如:從數據庫A中一張表到數據庫B中的另一張表。而實際應用中針對某些應用場景存在導入多個目的端的需求,因此需要提供一種ETL任務中多目的端的數據加載機制。
發明內容
本申請所要解決的技術問題是提供一種部分或全部解決上述技術問題的大數據處理平臺的任務管理方法和裝置。
為了解決上述問題,本申請公開了一種數據加載系統,包括至少一個數據源、數據加載裝置和多個目的加載端;
所述數據加載裝置,用于從至少一個數據源抽取源數據,并對所述源數據進行預設處理得到待加載數據;按照待加載數據的至少一種數據屬性,將所述待加載數據劃分為歸屬不同目的加載端的多個待加載數據塊;控制待加載數據塊加載至所歸屬的目的加載端。
本申請還公開了一種數據加載方法,包括:
從至少一個數據源抽取源數據,并對所述源數據進行預設處理得到待加載數據;
按照待加載數據的至少一種數據屬性,將所述待加載數據劃分為歸屬不同目的加載端的多個待加載數據塊;
控制待加載數據塊加載至所歸屬的目的加載端。
優選地,所述從至少一個數據源抽取源數據包括:
從多個數據源抽取混合源數據,所述數據源包括業務系統、系統模塊或應用程序。
優選地,所述對所述源數據進行預設處理得到待加載數據包括:
將所述混合源數據按照所攜帶的數據源標識劃分為多個源數據;
查找針對各個源數據對應的數據源的處理策略;
按照查找的處理策略對各個源數據進行預設處理,所述預設處理包括數據清洗和數據轉換。
優選地,所述按照待加載數據的至少一種數據屬性,將所述待加載數據劃分為歸屬不同目的加載端的多個待加載數據塊包括:
在加載端路由表中查找所述待加載數據的所述至少一種數據屬性對應的目的加載端;
將所述待加載數據劃分為歸屬不同目的加載端的多個待加載數據塊。
優選地,在所述按照待加載數據的至少一種數據屬性,將所述待加載數據劃分為歸屬不同目的加載端的多個待加載數據塊之前,所述方法還包括:
解析所述待加載數據的設定內容得到所述待加載數據的至少一種數據屬性,所述數據屬性包括時間信息、數據源信息或數據業務類型。
優選地,所述解析所述待加載數據的設定內容得到所述待加載數據的至少一種數據屬性包括:
通過對所述待加載數據的設定內容進行規則匹配,從所述待加載數據的設定內容中提取至少一種數據屬性。
優選地,所述解析所述待加載數據的設定內容得到所述待加載數據的至少一種數據屬性包括:
通過對所述待加載數據中的設定內容進行切分,得到所述待加載數據的至少一種數據屬性。
優選地,所述方法還包括:
接收用戶通過設定接口預先選擇的設定內容。
優選地,在所述對所述源數據進行預設處理得到待加載數據之前,所述方法還包括:
生成對應所抽取源數據的源數據加載任務,并添加至第一任務隊列;
按照設定的第一處理順序規則,從所述第一任務隊列提取待處理的源數據加載任務。
優選地,在所述按照待加載數據的至少一種數據屬性,將所述待加載數據劃分為歸屬不同目的加載端的多個待加載數據塊之后,所述方法還包括:
針對各待加載數據塊,生成對應所述待加載數據塊的數據塊加載任務,并添加至針對待加載數據塊對應的目的加載端預置的第二任務隊列。
優選地,所述控制各待加載數據塊加載至所歸屬的目的加載端包括:
針對各第二任務隊列,按照設定的第二處理順序規則,從所述第二任務隊列提取數據塊加載任務;
執行所述數據塊加載任務以將待加載數據塊加載至所歸屬的目的加載端。
優選地,所述控制待加載數據塊加載至所歸屬的目的加載端包括:
調用所述目的加載端的至少一個加載線程加載所述待加載數據至所述目的加載端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610799125.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效脫硫劑反應釜攪拌裝置
- 下一篇:一種化工反應罐
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





