[發明專利]大規模工業數據壓縮存儲方法、系統及介質有效
| 申請號: | 202010961819.X | 申請日: | 2020-09-14 |
| 公開(公告)號: | CN112214453B | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 高響 | 申請(專利權)人: | 上海微億智造科技有限公司;常州微億智造科技有限公司 |
| 主分類號: | G06F16/11 | 分類號: | G06F16/11;G06F16/16;G06F16/174;G06F16/182 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 李佳俊;郭國中 |
| 地址: | 201100 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大規模 工業 數據壓縮 存儲 方法 系統 介質 | ||
1.一種大規模工業數據壓縮存儲方法,其特征在于,包括:
步驟1:根據數據源類型配置不同的數據采集系統,通過界面化操作對數據采集系統采集的數據進行提取;
步驟2:定義轉化鏈,通過數據清洗插件將提取的不同類型的數據的格式臨時轉化成Avro格式;
步驟3:以GPL協議壓縮Avro格式的數據,壓縮格式為snappy,并在分布式文件系統中創建以parquet為存儲格式的數據集,對壓縮后的數據進行存儲;
通過采用Flume作為數據管道連接工業數據平臺的各個數據源,并通過采用Morphlines減少構建和更改數據ETL流處理應用程序所需的時間,只需要通過關注業務邏輯,通過配置文件進行 配置化操作,進而將數據提取,轉換并加載到HDFS等分布式存儲系統中;
通過采用DataSet數據集,DataSet在創建數據集的時候指定數據格式為列式存儲格式和snappy壓縮格式;
通過flume對接工業數據平臺的kafka消息中間件的數據,只通過flume來進行處理落地,存儲成parquet格式并以snappy壓縮,數據只保存一份,通過flume filechannel保證數據的一致性,當數據落地出現問題,flume通過本身的事務機制進行回滾操作,并且不通過編寫代碼的方式;
所述步驟1包括:
步驟1.1:將數據源按照數據格式和存儲介質進行分類,數據格式包括結構化數據和非結構化數據,存儲介質包括Kafka和Rabbitmq;
步驟1.2:通過軟件配置管理工具,選擇對應的數據采集系統,Kafka對應kafka數據源選擇器,Rabbitmq對應Rabbitmq數據源選擇器;
所述步驟2中將數據轉化成Avro格式,包括:工業數據映射Avro格式的數據庫對象集合和生成臨時Avro格式的數據;
工業數據映射Avro格式的數據庫對象集合,包括如下步驟:
步驟2.1:通過配置所需要輸出的字段和輸入字段,定義成一個轉換鏈;
步驟2.2:配置數據采集系統的攔截器組件,對數據進行攔截處理,在數據轉化時進行預先加載Avro格式的數據庫對象集合,并注入到頭文件中;
工業數據生成臨時Avro格式的數據,包括如下步驟:
步驟2.3:數據采集系統接收工業設備日志事件,并發送到數據采集系統的數據導出組件中,將工業設備日志事件轉換為記錄后傳遞給ReadLine,ReadLine提取日志行和數據管道,使用正則表達式進行匹配,并將記錄發送至輸入流的每一行中,該行作為字符串放入消息后輸出字段;
步驟2.4:配置Flume攔截器,對生成帶有Avro格式的數據庫對象集合再進行攔截處理,將生成的數據庫對象集合轉化成臨時Avro格式數據。
2.根據權利要求1所述的大規模工業數據壓縮存儲方法,其特征在于,所述步驟3包括:
步驟3.1:生成數據集分區JSON文件,分區用于數據存儲,基于時間查詢和企業ID對數據進行處理;
步驟3.2:根據統一資源標識符和數據庫對象的集合定義數據集,數據管理平臺根據create命令創建或者指定數據集,包括數據集的統一資源定位器、指定數據庫對象的集合和分區字段JSON。
3.根據權利要求2所述的大規模工業數據壓縮存儲方法,其特征在于,生成數據集分區策略JSON文件步驟包括:
步驟3.1.1:指定分區字段和類型;
步驟3.1.2:指定分區JSON存儲路徑;
步驟3.1.3:提交生成分區策略JSON的命令。
4.根據權利要求2所述的大規模工業數據壓縮存儲方法,其特征在于,通過統一資源標識符識別數據集;
通過統一資源標識符獲取存儲數據的地址和存儲方式。
5.一種存儲有計算機程序的計算機可讀存儲介質,其特征在于,所述計算機程序被處理器執行時實現權利要求1至4中任一項所述的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海微億智造科技有限公司;常州微億智造科技有限公司,未經上海微億智造科技有限公司;常州微億智造科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010961819.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種從鎳溶液中絡合萃取除去雜質磷、硅的方法
- 下一篇:交班系統及方法





