[發(fā)明專利]一種準實時流式數(shù)據(jù)清洗方法和清洗系統(tǒng)在審
| 申請?zhí)枺?/td> | 201811560508.1 | 申請日: | 2018-12-20 |
| 公開(公告)號: | CN109815221A | 公開(公告)日: | 2019-05-28 |
| 發(fā)明(設(shè)計)人: | 王海榮;肖萬來;姚伯祥;吉棟慶 | 申請(專利權(quán))人: | 中科曙光南京研究院有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/25;G06F16/2455 |
| 代理公司: | 南京蘇高專利商標事務(wù)所(普通合伙) 32204 | 代理人: | 常虹 |
| 地址: | 211100 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 清洗 流式數(shù)據(jù) 清洗系統(tǒng) 數(shù)據(jù)清洗 準實時 封裝 緩存 海量數(shù)據(jù) 緩存數(shù)據(jù) 接收數(shù)據(jù) 實時獲取 寫入數(shù)據(jù) 抽取 寫入 發(fā)送 配置 部署 開發(fā) 維護 | ||
1.一種準實時流式數(shù)據(jù)清洗方法,其特征在于,包括:
S1、Flume系統(tǒng)的Source層實時獲取待清洗的流式數(shù)據(jù)并封裝為Event格式;
S2、設(shè)定數(shù)據(jù)清洗規(guī)則;對獲取到的待清洗的流式數(shù)據(jù)按照設(shè)定的數(shù)據(jù)清洗規(guī)則進行清洗;
S3、清洗后的數(shù)據(jù)再次封裝為Event格式發(fā)送給Flume系統(tǒng)的Channel層緩存;
S4、Channel層將緩存數(shù)據(jù)發(fā)送至Flume系統(tǒng)的Sink層寫入數(shù)據(jù)的接收數(shù)據(jù)源。
2.根據(jù)權(quán)利要求1所述的準實時流式數(shù)據(jù)清洗方法,其特征在于,所述數(shù)據(jù)清洗規(guī)則保存為配置文件,通過讀取配置文件來獲取數(shù)據(jù)清洗規(guī)則。
3.根據(jù)權(quán)利要求1所述的準實時流式數(shù)據(jù)清洗方法,其特征在于,步驟S2之后還包括:
S201、檢查數(shù)據(jù)清洗結(jié)果是否符合預(yù)期,如果符合預(yù)期,執(zhí)行步驟S3;否則跳轉(zhuǎn)至步驟S2修改數(shù)據(jù)清洗規(guī)則,重新進行清洗。
4.根據(jù)權(quán)利要求1所述的準實時流式數(shù)據(jù)清洗方法,其特征在于,所述對待清洗數(shù)據(jù)的清洗包括以下一項或多項:
I1、去除待清洗數(shù)據(jù)中的無用字符和/或字符串;
I2、將待替換的字符和/或字符串替換為目的字符和/或字符串;
I3、通過與格式模板進行代碼匹配,提取數(shù)據(jù);
I4、選擇字段進行函數(shù)處理;
I5、根據(jù)預(yù)設(shè)的字典表進行匹配;
I6、根據(jù)預(yù)設(shè)的條件進行過濾。
5.一種準實時流式數(shù)據(jù)清洗系統(tǒng),其特征在于,包括:
數(shù)據(jù)采集模塊,設(shè)置于Flume系統(tǒng)的Source層,用于實時獲取待清洗的流式數(shù)據(jù);
部署配置層,用于設(shè)定數(shù)據(jù)清洗規(guī)則;
攔截器層,用于對獲取到的待清洗的流式數(shù)據(jù)按照部署配置層設(shè)定的數(shù)據(jù)清洗規(guī)則進行清洗;
數(shù)據(jù)緩存模塊,設(shè)置于Flume系統(tǒng)的Channel層,用于緩存攔截器層清洗后的數(shù)據(jù);
數(shù)據(jù)輸出模塊,設(shè)置于Flume系統(tǒng)的Sink層,用于將Flume系統(tǒng)的Channel層緩存的數(shù)據(jù)寫入接收數(shù)據(jù)源。
6.根據(jù)權(quán)利要求5所述的準實時流式數(shù)據(jù)清洗系統(tǒng),其特征在于,部署配置層將數(shù)據(jù)清洗規(guī)則保存為配置文件,通過讀取配置文件來獲取數(shù)據(jù)清洗規(guī)則。
7.根據(jù)權(quán)利要求5所述的準實時流式數(shù)據(jù)清洗系統(tǒng),其特征在于,部署配置層包括可視化web界面,所述可視化web界面用于設(shè)定數(shù)據(jù)清洗規(guī)則。
8.根據(jù)權(quán)利要求5所述的準實時流式數(shù)據(jù)清洗系統(tǒng),其特征在于,還包括清洗檢驗?zāi)K,所述清洗檢驗?zāi)K設(shè)置于攔截器層,用于檢查數(shù)據(jù)清洗結(jié)果是否符合預(yù)期,如果符合預(yù)期,將清洗后的數(shù)據(jù)發(fā)送至數(shù)據(jù)緩存模塊;否則向部署配置層發(fā)送修改數(shù)據(jù)清洗規(guī)則消息,修改數(shù)據(jù)清洗規(guī)則,重新進行清洗。
9.根據(jù)權(quán)利要求5所述的準實時流式數(shù)據(jù)清洗系統(tǒng),其特征在于,所述攔截器對待清洗數(shù)據(jù)的清洗包括以下一項或多項:
I1、去除待清洗數(shù)據(jù)中的無用字符和/或字符串;
I2、將待替換的字符和/或字符串替換為目的字符和/或字符串;
I3、通過與格式模板進行代碼匹配,提取數(shù)據(jù);
I4、選擇字段進行函數(shù)處理;
I5、根據(jù)預(yù)設(shè)的字典表進行匹配;
I6、根據(jù)預(yù)設(shè)的條件進行過濾。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科曙光南京研究院有限公司,未經(jīng)中科曙光南京研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811560508.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種在WAP環(huán)境下傳輸流式數(shù)據(jù)的方法、客戶端和系統(tǒng)
- 一種面向流式數(shù)據(jù)的在線處理方法及系統(tǒng)
- 一種流式氣象數(shù)據(jù)的快速處理方法及系統(tǒng)
- 用于分配流式數(shù)據(jù)的方法及裝置
- 車載網(wǎng)絡(luò)流式數(shù)據(jù)優(yōu)化方法及裝置
- 數(shù)據(jù)處理方法和數(shù)據(jù)處理裝置
- 一種多源流式大數(shù)據(jù)融合匯聚處理框架模型實現(xiàn)方法
- 流式數(shù)據(jù)存儲方法及裝置
- 多數(shù)據(jù)流處理方法、裝置、計算機設(shè)備和存儲介質(zhì)
- 一種流式數(shù)據(jù)存儲方法、讀取方法、設(shè)備及可讀存儲介質(zhì)
- 數(shù)據(jù)清洗系統(tǒng)和數(shù)據(jù)清洗方法
- 數(shù)據(jù)清洗方法及數(shù)據(jù)清洗裝置
- 一種數(shù)據(jù)清洗的方法及用于數(shù)據(jù)清洗的裝置
- 一種數(shù)據(jù)清洗方法、裝置及計算機可讀存儲介質(zhì)
- 數(shù)據(jù)清洗方法、裝置、設(shè)備和存儲介質(zhì)
- 一種數(shù)據(jù)清洗方法及裝置
- 一種快速運行的大數(shù)據(jù)清洗方法
- 數(shù)據(jù)清洗方法及裝置
- 一種數(shù)據(jù)清洗方法、系統(tǒng)、數(shù)據(jù)清洗設(shè)備和可讀存儲介質(zhì)
- 一種數(shù)據(jù)清洗方法和裝置





