[發明專利]基于流式計算的海量數據清洗的方法在審
| 申請號: | 202010616966.3 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111858569A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 韓旭;于起超;馬貴生;羅登昌;馬丹璇 | 申請(專利權)人: | 長江巖土工程總公司(武漢);長江勘測規劃設計研究有限責任公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25 |
| 代理公司: | 武漢宇晨專利事務所 42001 | 代理人: | 狄宗祿 |
| 地址: | 430010 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算 海量 數據 清洗 方法 | ||
本發明基于流式計算的海量數據清洗的方法,包括如下步驟:異構數據源通過數據接入模塊統一接入數據,并以統一的格式推送入消息隊列Kafka中,等待數據清洗,并將接入情況反饋給調度中心;配置清洗算子和設計算子流程圖;計算集群中的計算節點與調度中心通信,調用算子流程圖,按照設計的算子流程圖的流程進行清洗操作,并將清洗運行情況反饋給調度中心。本發明采用分布式消息隊列Kafka統一接入數據,通過Kafka將數據源格式進行統一,方便數據清洗統一處理。多個計算節點采用分布式并列形式部署,能夠根據需求動態橫向擴展,面對大批量數據有很強的魯棒性。通過拖拽式設計清洗流程可以滿足大部分清洗流程工作,具有很強的通用性。
技術領域
本發明屬于大數據ETL領域,更具體地涉及一種基于流式計算的海量數據清洗的方法。
背景技術
近幾年隨著信息化水平的不斷提高,數據呈現爆炸式增長,進入大數據時代。大數據具有大量(Volume)、多樣(Variety)、高速(Velocity)、價值(Value)和真實性(Veracity)等的5V特征。大數據的來臨改變了很多傳統工作方式,其中就包括ETL,ETL即數據抽取(Extract)、轉換(Transform)、清洗(Cleaning)、裝載(Loading)等過程,是數據倉庫建設的重要環節,負責整個數據倉庫的調度。其效率和清洗數據質量的高低直接決定數據倉庫建設和決策的正確性。因此,一個高性能可擴展的數據清洗框架對數據倉庫的構建有著重要作用。
目前數據清洗主要面臨以下幾個問題:(1)數據清洗性能低。傳統的數據清洗方式是針對于小批量的數據清洗。在大數據時代數據很可能每天成TB級別數據增加,加上有些清洗算法消耗很高的計算能力,導致傳統的數據清洗時間異常緩慢,甚至很難正常運行。(2)數據源多樣且復雜,清洗流程復雜。大數據的多樣性的特性決定需要清洗數據源的復雜多樣。數據倉庫中的數據往往來源于許多不同的系統,每個系統又包含多個模塊,每個模塊又包含單獨的數據源,不僅包括結構化數據還包括各種復雜的半結構化數據。數據清洗是一個復雜的流程,中間可能會有多個算子,比如合并,拆分,值替換,算法等。多種算子會按照一定的邏輯關系進行組合,形成清洗流程。傳統方式只能針對每一個清洗流程進行開發程序,大大降低了清洗的通用性。
因此,提供一種效率高通用性好的數據清洗方法是本領域亟待解決的問題。
發明內容
本發明的目的在于克服上述現有背景技術的不足之處,而提供一種基于流式計算的海量數據清洗的方法。它具有效率高,通用性好的特點。
本發明的目的是通過如下措施來達到的:基于流式計算的海量數據清洗的方法,其特征在于包括如下步驟:
(1)異構數據源通過數據接入模塊統一接入數據,并以統一的格式推送入消息隊列Kafka中,等待數據清洗,并將接入情況反饋給調度中心;
(2)配置清洗算子和設計算子流程圖包括
A:在調度中心的算子管理界面配置清洗算子;
B:根據不同的清洗需求,將各種算子按照一定的順序連接成的流程為算子流程圖;
(3)計算集群中的計算節點與調度中心通信,調用步驟(2)中設計的算子流程圖,按照設計的算子流程圖的流程進行清洗操作,并將清洗運行情況反饋給調度中心。
在上述技術方案中,所述異構數據源包括關系型數據庫,文本數據和Excel數據。
在上述技術方案中,所述統一接入數據格式包括:
A:數據的唯一標識uuid;
B:數據源的唯一標識nameId;
C:數據生成時間戳timestamp;
D:字段名fields;
E:數據內容datas。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長江巖土工程總公司(武漢);長江勘測規劃設計研究有限責任公司,未經長江巖土工程總公司(武漢);長江勘測規劃設計研究有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010616966.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種異形混凝土結構吧臺的施工方法
- 下一篇:一種瓦楞紙箱生產線
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





