[發明專利]一種實現ETL調度的方法及系統有效
| 申請號: | 200910137527.8 | 申請日: | 2009-04-28 |
| 公開(公告)號: | CN101533417A | 公開(公告)日: | 2009-09-16 |
| 發明(設計)人: | 蔣杰;陳榮松;蔣萃林 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/50 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 | 代理人: | 魏 杉 |
| 地址: | 英屬開曼群*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 etl 調度 方法 系統 | ||
技術領域
本申請涉及計算機領域,特別涉及一種實現ETL調度的方法及系統。
背景技術
數據倉庫(Data?Warehouse,DW)是一個面向主題的、集成的、相對穩定 的、反映歷史變化的數據集合,用于支持管理決策。數據倉庫是一個獨立的數 據環境,而數據抽取、轉換和加載(Extraction-Transformation-Loading,ETL) 是構建數據倉庫的重要一環。
ETL用于將分布的、異構數據源中的數據(例如,關系數據、平面數據文 件等)抽取到臨時中間層后進行清洗、轉換和集成,最后按照預先定義好的數 據倉庫模型,將數據加載到數據倉庫中,使構建的數據倉庫成為聯機分析處理 和數據挖掘的基礎。在技術上,ETL主要涉及到關聯、轉換、增量、調度和監 控等幾個方面。通常,數據倉庫中的數據不要求與聯機事務處理系統中的數據 實時同步,因此,ETL可以定時進行,但多個ETL的操作時間、順序和成敗 對數據倉庫中數據的有效性有著至關重要的影響,從而直接影響到聯機分析處 理結果和數據挖掘結果的質量。
參閱圖1所示,現有技術下,在數據倉庫中執行ETL調度時,需要規劃 出多個任務流程,例如,如圖1所示,過程A、過程B、過程C......即是規劃 出的多個任務流程;每個任務流程是由一個或多個原子級任務(以下簡稱為任 務)組成,例如,如圖1所示,過程A中的抽取任務、清洗任務和加載任務即 是原子級任務。其中,歸屬于同一任務流程的各任務之間,存在前后依賴關系 的各任務按照其依賴關系串行運行,而不存在前后依賴關系的各任務則可以并 行運行;同理,存在前后依賴關系的各任務流程按照其依賴關系串行運行,而 不存在前后依賴關系的各任務流程則可以并行運行。
但是,現有技術下,程序代碼分散配置在各個應用服務器上,一臺應用服 務器根據配置的程序代碼內容僅能執行固定的任務流程,因此,歸屬于同一任 務流程的所有任務必須分配至同一應用服務器進行處理,這樣,便使得系統中 的應用服務器資源難以得到合理分配,容易出現部分應用服務器空閑,而部分 應用服務器負荷過重的現象,從而造成嚴重的系統負載不均衡,并且也不利于 應用服務器數量的進一步擴展;另一方面,將每臺應用服務器設置為一個獨立 運行單元會給后期維護帶來不便,因為當應用服務器出現運行錯誤時需維護人 員登錄每一臺應用服務器進行維護,從而會耗費大量的人力物力,增加了維護 成本。
發明內容
本申請實施例提供一種實現ETL調度的方法及系統,用以提高ETL調度 的執行效率,減少誤操作概率,以及實現應用服務器資源的負載均衡。
本申請實施例提供的具體技術方案如下:
一種數據抽取、轉換和加載ETL調度的實現方法,包括:
根據預設的任務配置文件確定當前需要執行的至少一個任務,所述任務配 置文件包括完成ETL調度所需執行的各任務,以及各任務之間的依賴關系, 所述任務為原子級的任務,為ETL調度針對的后臺程序;
獲取各應用服務器的資源信息,并將所述資源信息與針對所述至少一個任 務預設的限定條件進行比較,獲得比較結果,所述資源信息包括應用服務器當 前執行的進程數、應用服務器當前數據庫表內剩余的存儲空間和應用服務器當 前的CPU使用率中的一種或任意組合;
根據所述比較結果對各應用服務器進行篩選,若確定存在符合預設的限定 條件的應用服務器,選定用于執行所述至少一個任務的應用服務器;若確定不 存在符合預設的限定條件的應用服務器,則將所述至少一個任務保存至緩沖池 中,定時提取所述至少一個任務,并判斷當前是否存在符合所述限定條件的應 用服務器,并在確定存在符合所述限定條件的應用服務器時,選定用于執行所 述至少一個任務的應用服務器;
將所述至少一個任務分配至選定的應用服務器,并指示該應用服務器根據 設定的程序代碼執行所述至少一個任務。
一種管理系統,包括:
知識庫單元,用于保存任務配置文件、針對各任務預設的限定條件和執行 各任務時所需的程序代碼,所述任務配置文件用以定義完成數據抽取、轉換和 加載ETL調度所需執行的各任務之間的依賴關系,所述任務為原子級的任務, 為ETL調度針對的后臺程序;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910137527.8/2.html,轉載請聲明來源鉆瓜專利網。





