[發明專利]一種實時ETL數據流轉換處理技術方法與系統在審
| 申請號: | 201711367085.7 | 申請日: | 2017-12-18 |
| 公開(公告)號: | CN107908797A | 公開(公告)日: | 2018-04-13 |
| 發明(設計)人: | 朱志剛;朱明磊 | 申請(專利權)人: | 上海中暢數據技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海精晟知識產權代理有限公司31253 | 代理人: | 吳慶 |
| 地址: | 200120 上海市浦東新區中國(上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實時 etl 數據流 轉換 處理 技術 方法 系統 | ||
技術領域
本發明涉及大數據實時流處理技術領域,尤其是一種實時ETL數據流轉換處理技術方法與系統。
背景技術
ETL是描述來源經過抽取,轉換到目標端的過程,用于構造數據倉庫,JStorm是一個分布式實時計算引擎,類似Hadoop MapReduce的系統,用戶按照規定的編程規范實現一個任務,然后將這個任務遞交給JStorm系統,并且按7*24小時運行起來,一旦中間一個worker發生意外故障,調度器立即分配一個新的worker替換這個失效的worker。因此,從應用的角度,JStorm應用是一種遵守某種編程規范的分布式應用。從系統角度,JStorm一套類似MapReduce的調度系統。從數據的角度,是一套基于流水線的消息處理機制。
隨著大數據的興起,企業越來越重視數據實時數據相關處理,從日志或者應用程序拉取到的數據如何規整、轉換和加載成為關鍵點,而目前傳統的ETL處理技術并不能在線實時處理,并且存在單點問題,在海量數據來臨時,每秒處理量,以及占用操作系統資源較大,且不能動態調整資源;傳統的ETL轉換并不能實時生效,當前配置的轉換策略,需要重啟轉換程序才可生效;傳統ETL配置的策略不夠靈活,一旦數據源改變,字段增刪改后,程序的配置策略比較復雜;傳統的轉換可靠性得不到保障,主機的網絡順斷,會導致任務失敗。
發明內容
本發明要解決的技術問題是:為了解決在大數據轉換領域不能實時有效對數據標準化、轉換,并且存在單點問題浪費資源占用;同時由于JStorm任務都是硬編碼,不能實時改變且不能動態調整資源問題,本發明提供了一種實時ETL數據流轉換處理技術方法,包括處理方法的各個步驟,提供一種拓撲圖配置,內部轉化器轉成類SQL,配置靈活;并且在網絡中斷,機器宕機的情況下依舊可以工作,保障數據轉換的穩定性;同時內部處理模塊提供一種動態配置的轉換的方式,有效的解決了現有在大數據轉換領域不能實時有效對數據標準化、轉換,并且存在單點問題浪費資源占用;同時由于JStorm任務都是硬編碼,不能實時改變且不能動態調整資源問題。
本發明解決其技術問題所采用的技術方案是:
一種實時ETL數據流轉換處理技術方法,包括如下具體步驟:
1)首先進行數據標準化,將各種日志數據標準化成日志模板,系統性能指標和業務指標標準化成指標模板;
2)把上述的標準數據Avro序列化放入到kafka消息隊列;
3)Jstorm的kafka Spout模塊從kafka隊列中反序列化出數據,根據配置的SQL區分不同的模板,并分發到不同的分布式節點,格式化成內部SQL處理引擎的輸入源;
4)利用內部計算引擎的實時統計做統計計算;
5)利用內部計算引擎類SQL語句,進行數據合并、數據拆分和數據驗證;
6)經過Jstorm和內部計算引擎出來,可支持閾值報警,或者右輸出到kafka用于其他用途。
進一步地,在步驟1)中,模板主要包括時間戳、維度、度量值、附加值。
進一步地,在步驟4)中,支持實時count,sum,group by操作。
進一步地,在步驟5)中,數據合并:多指標關聯實現相交用join;數據拆分:按一定規則進行數據拆分;數據驗證:查詢關鍵字、去除無關記錄。
進一步地,Jstorm集群支持動態擴展,zookeeper實時通知動態更新配置。
一種采用實時ETL數據流轉換處理技術方法的系統,實時ETL數據流轉換處理系統包括Web服務和Jstorm處理模塊,其中,Web服務包括zookeeper通知模塊、Sql配置模塊和數據標準化模塊;Jstorm處理模塊包括zk client實時通知模塊、反序列化模塊、SQL執行模塊、拉取和輸出kafka模塊、實時更新配置Sql模塊和異常處理模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海中暢數據技術有限公司,未經上海中暢數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711367085.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于運動的表盤和復雜功能塊
- 下一篇:一種數據文件的處理方法及系統





