[發明專利]一種數據抽取、轉換及裝載的方法在審
| 申請號: | 201610180936.6 | 申請日: | 2016-03-28 |
| 公開(公告)號: | CN105787122A | 公開(公告)日: | 2016-07-20 |
| 發明(設計)人: | 陳光;林海峰;丁水平;劉濤 | 申請(專利權)人: | 北京科東電力控制系統有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中濟緯天專利代理有限公司 11429 | 代理人: | 張曉霞 |
| 地址: | 100085 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 抽取 轉換 裝載 方法 | ||
技術領域
本發明涉及數據處理的方法,特別是指一種采用數據抽取、轉換及裝載的方法。
背景技術
隨著信息化技術的不斷發展,為信息化產生的海量數據進行分析所需的大規模數據和復雜查詢功能,數據庫軟件開發的正確性、可重用性逐步得到提高。傳統的數據軟件在數據提取、查詢分析方面都存在很多問題,而采用數據抽取、轉換及裝載(簡稱ETL)的方法后,數據的復用程度、業務敏捷能力得到了大幅提升,軟件技術也越來越接近業務本質。
因此目前急需一種數據處理的方法,這個方法主要針對構建數據倉庫,數據倉庫是面向主題的、集成的、穩定的且隨時間不斷變化的數據集合,用以支持經營管理中的決策制定過程,典型的應用包括管理來自不同數據庫的數據,系統已經封裝了如何去轉換執行一個ETL的過程,通過提供一個圖形化的用戶環境來描述用戶想做什么等。
發明內容
本發明目的在于提供一種數據抽取、轉換及裝載的方法,使用該方法進行大規模數據分析,能夠實現技術和業務的有效分離,能夠大大提高數據分析使用效率和質量。
本發明的技術方案如下:
一種數據抽取、轉換及裝載的方法,包括如下的步驟:
步驟一:轉換的過程中,在windows環境下,首先會調用初始化的批處理配置文件,連接驗證、環境設置、檢查,調用JAVA數據庫連接驅動的應用程序接口文件包,并向JAVA數據庫連接驅動中傳入數據庫連接信息和參數,開啟數據傳輸,關閉數據傳輸協議,寫入日志;
步驟二:數據源組裝的過程,將一個或者多個不同的數據源組裝成一條流水線,最終輸出到一個文件或數據庫,通過調度所述轉換步驟,執行文件處理、上傳下載文件、發送郵件、執行命令;
步驟三:規定數據流向的過程,轉換順序:規定輸入、轉換和輸出操作的數據流向;
步驟四:執行順序連線的過程,連接數據轉換的腳本文件、控制工作流的腳本文件,執行步驟。
進一步地,在步驟三和步驟四之間還包括對指定任務設置執行條件的步驟:設置無條件執行時,直接執行該任務、設置當上一個任務執行結果返回“真”時執行該任務、當上一個任務執行結果返回“假”時執行該任務。
采用上述技術方案,本發明具有如下有益效果:
本發明設有兩種腳本文件,轉換(transformation)和工作(job),transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。解決大規模數據分析利用不能快速響應業務的變化、數據復用程度低、技術和業務混雜、以及分析效率和交付質量不高的問題。
同時,基于此方法進行數據分析,可以有效提高業務的敏捷性,以及對變化的響應能力。服務的重用性,有利于業務的積累和沉淀。
具體實施方式
首先,安裝Sun公司的JAVA運行環境。作為面向服務構建軟件的基礎環境。
其次,它是一個圖形用戶界面,允許運行轉換或者任務,其中轉換是用Pan工具來運行,任務是用Kitchen來運行,Pan是一個數據轉換引擎,它可以執行很多功能,例如:從不同的數據源讀取、操作和寫入數據。Kitchen是一個可以運行利用XML或數據資源庫描述的任務。下面是在不同的平臺上運行Spoon所支持的腳本:
Spoon.bat:在windows平臺運行Spoon。
Spoon.sh:在Linux、AppleOSX、Solaris平臺運行Spoon。
資源庫是用來保存轉換任務的,用戶通過圖形界面創建的的轉換任務可以保存在資源庫中。資源庫可以使多用戶共享轉換任務,轉換任務在資源庫中是以文件夾形式分組管理的,用戶可以自定義文件夾名稱。資源庫有兩種形式:
1)DatabaseRepository,即保存在各種常見的數據庫資源庫類型,用戶通過用戶名/密碼來訪問資源庫中的資源,默認的用戶名/密碼是admin/admin和guest/guest。
2)FileRepository,保存在服務器硬盤文件夾內的資源庫類型,此類型的資源庫無需用戶進行登錄,直接進行操作。
再次,資源庫并不是必須的,如果沒有資源庫,用戶還可以把轉換任務保存在xml文件中。為了方便管理,建議用戶建立并使用數據庫類型資源DatabaseRepository。
最后,數據服務的運行和監控。為使用人員提供了極大的便利。
概括起來分為以下五個步驟,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科東電力控制系統有限責任公司,未經北京科東電力控制系統有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610180936.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





