[發明專利]一種準實時流式數據清洗方法和清洗系統在審
| 申請號: | 201811560508.1 | 申請日: | 2018-12-20 |
| 公開(公告)號: | CN109815221A | 公開(公告)日: | 2019-05-28 |
| 發明(設計)人: | 王海榮;肖萬來;姚伯祥;吉棟慶 | 申請(專利權)人: | 中科曙光南京研究院有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25;G06F16/2455 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 常虹 |
| 地址: | 211100 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 清洗 流式數據 清洗系統 數據清洗 準實時 封裝 緩存 海量數據 緩存數據 接收數據 實時獲取 寫入數據 抽取 寫入 發送 配置 部署 開發 維護 | ||
本發明公開了一種準實時流式數據清洗方法和清洗系統,其中清洗方法包括:1、Flume系統的Source層實時獲取待清洗的流式數據并封裝為Event格式;2、設定數據清洗規則;對獲取到的待清洗的流式數據按照設定的數據清洗規則進行清洗;3、清洗后的數據再次封裝為Event格式發送給Flume系統的Channel層緩存;4、Channel層將緩存數據發送至Flume系統的Sink層寫入數據的接收數據源。該方法能夠解決海量數據的實時抽取、清洗、寫入,且具有部署快速、配置簡單、易于開發和維護的優點。
技術領域
本發明屬于大數據ETL技術領域,具體涉及一種流式數據的清洗方法和系統。
背景技術
在大數據技術領域,數據采集、匯聚不規范、不統一對大數據分析應用的可靠性有著重要的影響。基于此,對數據進行清洗是進行大數據分析之前的必要步驟。現有的ETL數據清洗工具,比如Kettle等,一般不適用于實時性要求較高的業務場景;而能實現實時清洗的方法,比如kafuka+spark或者kafuka+storm體系,由于所使用系統的復雜性使其易用性不高,甚至修改清洗規則就需要重新開發,只有專業技術較強的技術人員能夠短時間內完成,這些大大提高了實時數據清洗的開發、維護成本。
發明內容
發明目的:針對現有技術中存在的問題,本發明提供了一種準實時流式數據清洗方法,該方法能夠解決海量數據的實時抽取、清洗、寫入,且具有部署快速、配置簡單、易于開發和維護的優點。
技術方案:本發明一方面公開了一種準實時流式數據清洗方法,包括如下步驟:
S1、Flume系統的Source層實時獲取待清洗的流式數據并封裝為Event格式;
S2、設定數據清洗規則;對獲取到的待清洗的流式數據按照設定的數據清洗規則進行清洗;
S3、清洗后的數據再次封裝為Event格式發送給Flume系統的Channel層緩存;
S4、Channel層將緩存數據發送至Flume系統的Sink層寫入數據的接收數據源。
本發明中將數據清洗規則保存為配置文件,通過讀取配置文件來獲取數據清洗規則。
步驟S2之后還包括:
S201、檢查數據清洗結果是否符合預期,如果符合預期,執行步驟S3;否則跳轉至步驟S2修改數據清洗規則,重新進行清洗。
對待清洗數據的清洗包括以下一項或多項:
I1、去除待清洗數據中的無用字符和/或字符串;
I2、將待替換的字符和/或字符串替換為目的字符和/或字符串;
I3、通過與格式模板進行代碼匹配,提取數據;
I4、選擇字段進行函數處理;
I5、根據預設的字典表進行匹配;
I6、根據預設的條件進行過濾。
另一方面,本發明公開了一種準實時流式數據清洗系統,包括:
數據采集模塊,設置于Flume系統的Source層,用于實時獲取待清洗的流式數據;部署配置層,用于設定數據清洗規則;攔截器層,用于對獲取到的待清洗的流式數據按照部署配置層設定的數據清洗規則進行清洗;數據緩存模塊,設置于Flume系統的Channel層,用于緩存攔截器層清洗后的數據;數據輸出模塊,設置于Flume系統的Sink層,用于將Flume系統的Channel層緩存的數據寫入接收數據源。
部署配置層將數據清洗規則保存為配置文件,通過讀取配置文件來獲取數據清洗規則。部署配置層包括可視化web界面,所述可視化web界面用于設定數據清洗規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科曙光南京研究院有限公司,未經中科曙光南京研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811560508.1/2.html,轉載請聲明來源鉆瓜專利網。





