[發明專利]一種基于Spark計算框架的動能數據處理系統及方法有效
| 申請號: | 202010010196.8 | 申請日: | 2020-01-06 |
| 公開(公告)號: | CN111177276B | 公開(公告)日: | 2023-10-20 |
| 發明(設計)人: | 葉志暉;王文娟;張成挺;錢杰 | 申請(專利權)人: | 浙江中煙工業有限責任公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06F16/25;G06F16/215;G06F9/54;G06Q50/04 |
| 代理公司: | 杭州豐禾專利事務所有限公司 33214 | 代理人: | 徐金杰 |
| 地址: | 310008 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 spark 計算 框架 動能 數據處理系統 方法 | ||
1.一種基于 Spark 計算框架的動能數據處理系統,其特征在于:包括數據采集模塊、數據處理分析模塊和數據存儲模塊;所述數據采集模塊內置多個傳感器節點,用來對MES、能管、動力集控、設備管理等各系統的數據的采集,以獲取卷煙廠動力車間各類動能監測數據;所述數據處理分析模塊包括數據接入模塊、數據緩存模塊和實時計算模塊,根據應用場景對動能數據進行實時計算和離線分析;所述數據存儲模塊采用基于Spark 計算框架將清洗后的數據存于對應的數據庫中。
2.根據權利要求 1 所述的一種基于Spark 計算框架的動能數據處理系統,其特征在于:所述數據處理分析模塊對進入Kafka 的所有采集的數據采用各種方法進行數據的清洗,包括對數據依次進行重復值、錯誤值、異常值以及缺失值的清洗,為數據分析提供符合要求的基礎數據。
3.根據權利要求 1 所述的一種基于Spark 計算框架的動能數據處理系統,其特征在于:所述數據存儲模塊提高大數據存儲與關系數據庫相結合對原始數據、過程數據進行分布式文件存儲的同時,將結果保存至關系型數據庫Oracle 中,并通過sqoop 實現分布式文件系統與關系型數據庫之間的數據傳遞。
4.一種基于 Spark 計算框架的動能數據處理方法,其特征在于:采用權利要求1 至3中任意一項所述的處理系統,步驟如下:
步驟1:由無線傳感器接收動能數據,對各動能設備的監控數據進行不同主題分區,利用 kafka 消息隊列服務,將數據以流的形式發布至緩沖池;
步驟2:啟動Kafka消息隊列集群的用戶接入功能,接入用戶向系統發布的任務;
步驟3:構建包括消息生產者、消息緩存節點和消息消費者的Kafka集群,并對Kafka集群節點進行主題分區;
步驟4:由Kafka集群對消息隊列中的數據進行協調服務,消息生產者對用戶訂閱的任務進行邏輯解析,并推送至Kafka 集群節點的主題分區中緩存;
步驟5:由實時計算模塊從Kafka消息隊列的不同主題中按照訂閱要求,主動拉取所需主題的分區消息,并由流計算集群節點將數據交由數據計算層進行數據處理。
5.根據權利要求 4 所述的一種基于Spark 計算框架的動能數據處理方法,其特征在于:所述步驟5 中,采用基于Spark 計算框架的實時計算模塊從Kafka消息隊列中拉取流數據,并傳遞給Spark 計算框架的計算組件進行加工處理,先后進行數據轉換、數據復制、邏輯判斷、異常數據處理、數據比對、數據裝載、數據路由、數據整合、數據審核操作。
6.根據權利要求 5 所述的一種基于Spark 計算框架的動能數據處理方法,其特征在于:所述Spark 計算框架的計算組件進行加工處理,具體涉及以下內容:
(1)可視化配置格式轉換,包括字段拆分/合并、不同格式間轉換;對字段內或字段間做數學運算;根據一個或幾個字段做聚類操作;對數據字典和身份證的轉換等;
(2)可視化配置多種邏輯處理,包括:格式匹配檢查、字符串邏輯檢查、內容為空檢查、重復記錄檢查、范圍內檢查、表表外鍵關聯檢查、邏輯檢查、復合邏輯檢查、自定義邏輯檢查等;
(3)根據邏輯處理情況,對異常數據進行相應的加工策略,策略有三種:一種是將邏輯處理后的數據與目標數據庫表內容做比對操作,并根據比對結果做相應的增加、覆蓋、刪除等處理;第二種是做數據邏輯判斷來支持異常情況處理,對于出現異常情況的數據,可以根據邏輯處理設定不同的處理策略,既可以設置為差錯數據記錄到差錯數據庫上,供業務人員數據審核處理,也可以路由輸入到指定的目標方供業務人員處理,還可以作為異常數據記錄到相應日志文件上,并給予監控日志相應提示,供信息操作者根據提示做相應的處理作出對應的判斷數據的異常情況;第三種策略是按照字段內容作為路由條件將數據加載到不同的目標上進行處理;
(4)記錄數據加工過程中不合規范的數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江中煙工業有限責任公司,未經浙江中煙工業有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010010196.8/1.html,轉載請聲明來源鉆瓜專利網。





