[發(fā)明專利]一種基于Excel的大數據ETL全過程定義的方法在審
| 申請?zhí)枺?/td> | 201710566324.5 | 申請日: | 2017-07-12 |
| 公開(公告)號: | CN107315726A | 公開(公告)日: | 2017-11-03 |
| 發(fā)明(設計)人: | 陳濤;黃卓凡;張志聰;李筍;林志廣 | 申請(專利權)人: | 廣東奡風科技股份有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/24 |
| 代理公司: | 東莞市神州眾達專利商標事務所(普通合伙)44251 | 代理人: | 皮發(fā)泉 |
| 地址: | 510000 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 excel 數據 etl 全過程 定義 方法 | ||
技術領域
本申請涉及一種基于Excel的大數據ETL全過程定義的方法,特別地,涉及一種通過Excel模板進行ETL作業(yè)定制和元數據管理的方法。
背景技術
伴隨著大數據的爆炸性增長,大數據應用獲得了極大的發(fā)展,而大數據應用離不開海量數據的收集、清洗和加工。大數據的幾大特點:數據巨量化(Volume)、數據形態(tài)多樣化(Variety)、數據產生及處理快速化(Velocity),給大數據的數據抽取、轉換和加載(以下簡稱ETL)帶來了新的機遇和挑戰(zhàn),也對ETL系統(tǒng)的易用性、高效性、可維護性提出了更高的要求。
通常情況下,企業(yè)采用傳統(tǒng)的ETL產品或直接編碼來構建ETL系統(tǒng),對大數據進行加工和處理。傳統(tǒng)的ETL產品注重操作界面的易用性,每個ETL作業(yè)(本申請中Job和作業(yè)互為通用,ETL作業(yè)即ETL Job)通過畫圖進行設計,先在界面通過拖拉來定義ETL階段(本申請中Stage和階段互為通用,ETL階段即ETL Stage),并在ETL Stage之間連線定義數據加工流程,然后再點擊每個ETL Stage定義相關參數,從而完成一個完整的ETL Job設計。這樣定義的環(huán)節(jié)多,效率低下。另外,元數據管理和傳統(tǒng)的ETL產品分離,一旦數據結構有變動,無法自動去調整ETL工具產品中的ETL Job定義,需通過人工逐個點擊ETL作業(yè)中的Stage來進行變更。當ETL作業(yè)很多的時候,開發(fā)和維護的工作量會非常大。直接編程的好處是靈活度高,但和傳統(tǒng)的ETL產品面臨同樣的問題,開發(fā)低效,維護困難;因此有必要設計一種新的ETL產品。
發(fā)明內容
本申請解決了傳統(tǒng)ETL產品和直接編程時的開發(fā)低效,維護困難問題。
一種基于Excel的大數據ETL全過程定義的方法,通過Excel模板進行ETL Job定制和元數據管理。該方法操作簡單,在易用性和可維護性方面較傳統(tǒng)ETL工具產品和直接編程有了很大的提高。本方法高度融合了元數據管理,針對數據結構、參數、加工流程的變更,只需修改相應的Excel模板元數據,無需再編程,易于管理和維護。
本方法是輕量級的獨立于ETL系統(tǒng)的ETL全過程定義載體,無限覆蓋所有ETL功能的定制,操作簡單,靈活易用,借助Excel模板,將大大降低使用者的學習成本,無需學習新的ETL工具產品。
本方法充分滿足各行業(yè)在ETL Job定制和元數據管理的需要。
一種基于Excel的大數據ETL全過程定義的方法是以Excel模板為基礎,采用統(tǒng)一的界面格式和規(guī)范化的描述語言進行ETL的全過程定義。該方法操作簡單,在易用性和可維護性方面較傳統(tǒng)ETL工具產品和直接編程有了很大的提高,并可以結合機器人軟件進行批量定制,在效率上有數倍的提升。
本方法高度融合了元數據管理,從源數據的抽取、數據加工、到目標數據的最終落地,在Excel模板所涉及的全部過程定義和參數設置,都作為ETL系統(tǒng)的元數據輸入。ETL系統(tǒng)根據本方法設置的元數據,自動流水線式運行數據抽取、數據處理、數據整合、數據輸出等模塊,無需人工干預。針對數據結構、參數、加工流程等的變更,只需修改相應的Excel模板元數據,甚至可以通過機器人軟件進行元數據的批量修改,無需再編程,易于管理和維護。
本申請具有以下優(yōu)點:
1、以Excel模板為基礎定制大數據ETL全過程,簡單高效
本方法以Excel模板為基礎,采用統(tǒng)一的界面格式和規(guī)范化的描述語言進行ETL的全過程定制。該方法操作簡單,在易用性和可維護性方面較傳統(tǒng)ETL工具產品和直接編程有了很大的提高,并可以結合機器人軟件進行批量定制,在效率上有數倍的提升。
2、高度融合了元數據管理,簡明易用,維護方便
采用簡單易用的Excel模板管理和配置元數據;元數據變更直接在Excel模板里進行維護,一目了然。甚至可以通過機器人軟件進行元數據的批量修改,無需再編程,易于管理和維護。
附圖說明
圖1為本申請的方法構成框圖。
圖2為參數設置模板示意圖。
圖3為文件處理類ETL Stage模板。
圖4為數據處理類ETL Stage模板。
圖5為文件處理邏輯界面。
圖6為數據處理邏輯界面。
圖7為文件處理類模板定制的讀文件范例。
圖8為數據處理類模板定制的數據集關聯(lián)(Join)范例。
圖9為數據處理類模板定制的數據清洗與格式化(Transformer)范例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東奡風科技股份有限公司,未經廣東奡風科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710566324.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法、數據系統(tǒng)、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發(fā)送方法、數據發(fā)送系統(tǒng)、數據發(fā)送裝置以及數據結構
- 數據顯示系統(tǒng)、數據中繼設備、數據中繼方法及數據系統(tǒng)
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發(fā)送和數據接收設備、數據發(fā)送和數據接收方法
- 數據發(fā)送裝置、數據接收裝置、數據收發(fā)系統(tǒng)、數據發(fā)送方法、數據接收方法和數據收發(fā)方法
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置
- 數據發(fā)送方法、數據再現方法、數據發(fā)送裝置及數據再現裝置





