[發明專利]基于流式計算的海量數據清洗的方法在審
| 申請號: | 202010616966.3 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111858569A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 韓旭;于起超;馬貴生;羅登昌;馬丹璇 | 申請(專利權)人: | 長江巖土工程總公司(武漢);長江勘測規劃設計研究有限責任公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25 |
| 代理公司: | 武漢宇晨專利事務所 42001 | 代理人: | 狄宗祿 |
| 地址: | 430010 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算 海量 數據 清洗 方法 | ||
1.基于流式計算的海量數據清洗的方法,其特征在于包括如下步驟:
(1)異構數據源通過數據接入模塊統一接入數據,并以統一的格式推送入消息隊列Kafka中,等待數據清洗,并將接入情況反饋給調度中心;
(2)配置清洗算子和設計算子流程圖包括
A:在調度中心的算子管理界面配置清洗算子;
B:根據不同的清洗需求,將各種算子按照一定的順序連接成的流程為算子流程圖;
(3)計算集群中的計算節點與調度中心通信,調用步驟(2)中設計的算子流程圖,按照設計的算子流程圖的流程進行清洗操作,并將清洗運行情況反饋給調度中心。
2.根據權利要求1所述的所述的基于流式計算的海量數據清洗的方法,其特征在于所述異構數據源包括關系型數據庫,文本數據和Excel數據。
3.根據權利要求1或2所述的基于流式計算的海量數據清洗的方法,其特征在于所述統一接入數據格式包括:
A:數據的唯一標識uuid;
B:數據源的唯一標識nameId;
C:數據生成時間戳timestamp;
D:字段名fields;
E:數據內容datas。
4.根據權利要求1或2所述的基于流式計算的海量數據清洗的方法,其特征在于所述清洗算子主要包括:
A1:替換中文字符算子;
A2:字典替換算子;
A3:提取字段算子;
A4:條件過濾算子;
A5:去重算子;
A6:輸出算子。
5.根據權利要求1所述的基于流式計算的海量數據清洗的方法,其特征在于所述算子流程圖的節點類型主要包括:
(1)開始節點,標志一個流程的開始;
(2)算子節點,配置不同的算子;
(3)判斷節點,配置不同分支判斷;
(4)結束節點,標志一個流程的結束。
6.根據權利要求1所述的基于流式計算的海量數據清洗的方法,其特征在于所述設計算子流程圖主要步驟包括:
(1)拖拽一個開始節點到畫布;
(2)拖拽算子節點到畫布,并配置算子類型;
(3)如果有判斷節點,拖拽判斷節點到畫布;
(4)拖拽結束節點到畫布;
(5)將所有節點按照算子的流程用線連接起來;
(6)保存算子流程。
7.根據權利要求1所述的基于流式計算的海量數據清洗的方法,其特征在于所述計算集群為多個計算節點組成,每個計算節點都可以運行單獨的算子流程,計算節點可以根據計算需要來配制計算節點數量。
8.根據權利要求1所述的基于流式計算的海量數據清洗的方法,其特征在于所述步驟(3)的數據清洗流程是:
a:從Kafka消費數據,讀取Kafka中的數據叫消費數據;
b:判斷是否需要清洗,是繼續清洗,否結束;
c:從調度中心讀取算子流程圖;
d:利用JAVA的反射原理調用相關算子進行清洗操作;
e:清洗后的數據進入數據倉庫;
f:數據清洗入庫結果反饋給調度中心;
g:結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長江巖土工程總公司(武漢);長江勘測規劃設計研究有限責任公司,未經長江巖土工程總公司(武漢);長江勘測規劃設計研究有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010616966.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種異形混凝土結構吧臺的施工方法
- 下一篇:一種瓦楞紙箱生產線
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





