[發(fā)明專利]大規(guī)模工業(yè)數(shù)據(jù)壓縮存儲(chǔ)方法、系統(tǒng)及介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010961819.X | 申請(qǐng)日: | 2020-09-14 |
| 公開(公告)號(hào): | CN112214453B | 公開(公告)日: | 2021-10-01 |
| 發(fā)明(設(shè)計(jì))人: | 高響 | 申請(qǐng)(專利權(quán))人: | 上海微億智造科技有限公司;常州微億智造科技有限公司 |
| 主分類號(hào): | G06F16/11 | 分類號(hào): | G06F16/11;G06F16/16;G06F16/174;G06F16/182 |
| 代理公司: | 上海段和段律師事務(wù)所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201100 上海*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 大規(guī)模 工業(yè) 數(shù)據(jù)壓縮 存儲(chǔ) 方法 系統(tǒng) 介質(zhì) | ||
本發(fā)明提供了一種大規(guī)模工業(yè)數(shù)據(jù)壓縮存儲(chǔ)方法、系統(tǒng)及介質(zhì),包括:步驟1:根據(jù)數(shù)據(jù)源類型配置不同的數(shù)據(jù)采集系統(tǒng),通過界面化操作對(duì)數(shù)據(jù)采集系統(tǒng)采集的數(shù)據(jù)進(jìn)行提取;步驟2:定義轉(zhuǎn)化鏈,通過數(shù)據(jù)清洗插件將提取的不同類型的數(shù)據(jù)的格式臨時(shí)轉(zhuǎn)化成Avro格式;步驟3:以GPL協(xié)議壓縮Avro格式的數(shù)據(jù),壓縮格式為snappy,并在分布式文件系統(tǒng)中創(chuàng)建以parquet為存儲(chǔ)格式的數(shù)據(jù)集,對(duì)壓縮后的數(shù)據(jù)進(jìn)行存儲(chǔ)。本發(fā)明能夠?qū)θ魏晤愋蛿?shù)據(jù)定義轉(zhuǎn)化鏈和壓縮和存儲(chǔ)格式,大大提高計(jì)算平臺(tái)數(shù)據(jù)處理速度和數(shù)據(jù)壓縮比率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)壓縮存儲(chǔ)技術(shù)領(lǐng)域,具體地,涉及一種大規(guī)模工業(yè)數(shù)據(jù)壓縮存儲(chǔ)方法、系統(tǒng)及介質(zhì)。
背景技術(shù)
隨著新基建的大力發(fā)展,越來越多的傳統(tǒng)工業(yè)企業(yè)開始借助互聯(lián)網(wǎng)技術(shù)來提高生產(chǎn)力,其中數(shù)據(jù)最為關(guān)鍵。在傳統(tǒng)互聯(lián)網(wǎng)中大數(shù)據(jù)處理中存在著數(shù)據(jù)越來越多,很多企業(yè)會(huì)備份2份數(shù)據(jù)。這就造成磁盤的浪費(fèi)。
專利文獻(xiàn)CN108304472A(申請(qǐng)?zhí)枺?01711455790.2)公開了一種數(shù)據(jù)壓縮存儲(chǔ)方法以及數(shù)據(jù)壓縮存儲(chǔ)裝置,該數(shù)據(jù)壓縮方法包括下述步驟:切分步驟,將原始數(shù)據(jù)切分成多個(gè)字段;以及壓縮步驟,基于數(shù)據(jù)內(nèi)容的不同,對(duì)于不同字段采用不同的壓縮策略進(jìn)行壓縮并存儲(chǔ)壓縮后的壓縮數(shù)據(jù)。根據(jù)本發(fā)明的數(shù)據(jù)壓縮存儲(chǔ)方法以及數(shù)據(jù)壓縮存儲(chǔ)裝置,能夠考慮到數(shù)據(jù)內(nèi)容的不同而采用不同的壓縮方法,能夠有效提高數(shù)據(jù)壓縮效率,相比通用的GZIP、SNAPPY等數(shù)據(jù)壓縮工具,在數(shù)據(jù)壓縮率上有明顯的提升。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種大規(guī)模工業(yè)數(shù)據(jù)壓縮存儲(chǔ)方法、系統(tǒng)及介質(zhì)。
根據(jù)本發(fā)明提供的大規(guī)模工業(yè)數(shù)據(jù)壓縮存儲(chǔ)方法,包括:
步驟1:根據(jù)數(shù)據(jù)源類型配置不同的數(shù)據(jù)采集系統(tǒng),通過界面化操作對(duì)數(shù)據(jù)采集系統(tǒng)采集的數(shù)據(jù)進(jìn)行提取;
步驟2:定義轉(zhuǎn)化鏈,通過數(shù)據(jù)清洗插件將提取的不同類型的數(shù)據(jù)的格式臨時(shí)轉(zhuǎn)化成Avro格式;
步驟3:以GPL協(xié)議壓縮Avro格式的數(shù)據(jù),壓縮格式為snappy,并在分布式文件系統(tǒng)中創(chuàng)建以parquet為存儲(chǔ)格式的數(shù)據(jù)集,對(duì)壓縮后的數(shù)據(jù)進(jìn)行存儲(chǔ)。
優(yōu)選的,所述步驟1包括:
步驟1.1:將數(shù)據(jù)源按照數(shù)據(jù)格式和存儲(chǔ)介質(zhì)進(jìn)行分類,數(shù)據(jù)格式包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)介質(zhì)包括Kafka和Rabbitmq;
步驟1.2:通過軟件配置管理工具,選擇對(duì)應(yīng)的數(shù)據(jù)采集系統(tǒng),Kafka對(duì)應(yīng)kafka數(shù)據(jù)源選擇器,Rabbitmq對(duì)應(yīng)Rabbitmq數(shù)據(jù)源選擇器。
優(yōu)選的,所述步驟2中將數(shù)據(jù)轉(zhuǎn)化成Avro格式,包括:工業(yè)數(shù)據(jù)映射Avro格式的數(shù)據(jù)庫對(duì)象集合和生成臨時(shí)Avro格式的數(shù)據(jù)。
優(yōu)選的,工業(yè)數(shù)據(jù)映射Avro格式的數(shù)據(jù)庫對(duì)象集合,包括如下步驟:
步驟2.1:通過配置所需要輸出的字段和輸入字段,定義成一個(gè)轉(zhuǎn)換鏈;
步驟2.2:配置數(shù)據(jù)采集系統(tǒng)的攔截器組件,對(duì)數(shù)據(jù)進(jìn)行攔截處理,在數(shù)據(jù)轉(zhuǎn)化時(shí)進(jìn)行預(yù)先加載Avro格式的數(shù)據(jù)庫對(duì)象集合,并注入到頭文件中。
優(yōu)選的,工業(yè)數(shù)據(jù)生成臨時(shí)Avro格式的數(shù)據(jù),包括如下步驟:
步驟2.3:數(shù)據(jù)采集系統(tǒng)接收工業(yè)設(shè)備日志事件,并發(fā)送到數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)導(dǎo)出組件中,將工業(yè)設(shè)備日志事件轉(zhuǎn)換為記錄后傳遞給ReadLine,ReadLine提取日志行和數(shù)據(jù)管道,使用正則表達(dá)式進(jìn)行匹配,并將記錄發(fā)送至輸入流的每一行中,該行作為字符串放入消息后輸出字段;
步驟2.4:配置Flume攔截器,對(duì)生成帶有Avro格式的數(shù)據(jù)庫對(duì)象集合再進(jìn)行攔截處理,將生成的數(shù)據(jù)庫對(duì)象集合轉(zhuǎn)化成臨時(shí)Avro格式數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海微億智造科技有限公司;常州微億智造科技有限公司,未經(jīng)上海微億智造科技有限公司;常州微億智造科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010961819.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于WLAN網(wǎng)絡(luò)的數(shù)據(jù)壓縮傳輸方法、STA及AP
- 一種數(shù)據(jù)壓縮存儲(chǔ)方法、裝置,及分布式文件系統(tǒng)
- 數(shù)據(jù)傳輸、數(shù)據(jù)接收方法及裝置
- 一種數(shù)據(jù)壓縮存儲(chǔ)方法以及數(shù)據(jù)壓縮存儲(chǔ)裝置
- 數(shù)據(jù)的傳輸方法、數(shù)據(jù)傳輸裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)壓縮系統(tǒng)、有損數(shù)據(jù)壓縮的方法和數(shù)據(jù)壓縮的方法
- 數(shù)據(jù)壓縮方法、數(shù)據(jù)壓縮系統(tǒng)以及采用該系統(tǒng)的車輛ECU
- 數(shù)據(jù)壓縮方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 口授系統(tǒng)
- 具有幾個(gè)數(shù)據(jù)壓縮信道的數(shù)據(jù)壓縮組件
- 動(dòng)態(tài)存儲(chǔ)管理裝置及方法
- 一種存儲(chǔ)方法、服務(wù)器及存儲(chǔ)控制器
- 一種基于存儲(chǔ)系統(tǒng)的控制方法及裝置
- 一種信息的存儲(chǔ)控制方法
- 一種數(shù)據(jù)存儲(chǔ)方法及裝置
- 數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)存儲(chǔ)控制方法及裝置
- 存儲(chǔ)設(shè)備、存儲(chǔ)系統(tǒng)及存儲(chǔ)方法
- 物料存儲(chǔ)方法及系統(tǒng)
- 基于雙芯智能電表的數(shù)據(jù)分類存儲(chǔ)方法和裝置





