[發明專利]一種基于HDFS的電梯數據的列式文件存儲系統及方法在審
| 申請號: | 201711465597.7 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108319652A | 公開(公告)日: | 2018-07-24 |
| 發明(設計)人: | 萬敏;張儀;丁凌峰;張雷;陳小游 | 申請(專利權)人: | 浙江新再靈科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州天昊專利代理事務所(特殊普通合伙) 33283 | 代理人: | 董世博;何碧珩 |
| 地址: | 310051 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電梯 實時狀態數據 文件存儲系統 電梯數據 數據源層 觸發 存儲 數據加載模塊 索引管理模塊 文件處理系統 文件管理模塊 數據標準化 文件處理層 上報 存儲系統 高吞吐量 技術難題 數據存儲 文件格式 文件系統 系統設計 擴展性 容錯性 訪問 | ||
本發明提供一種基于HDFS的電梯數據的列式文件存儲系統,包括存儲系統層、文件處理系統層和數據源層,其中,數據源層包括電梯實時狀態數據和電梯觸發類數據,電梯實時狀態數據每秒上報一條,電梯觸發類數據當電梯發生改變時上報,文件處理層包括數據加載模塊、數據標準化模塊、文件管理模塊和索引管理模塊。本系統設計基于HDFS及ElasticSearch技術,設計一套存儲方案用于解決這個技術難題,其中HDFS是一個高度容錯性的文件系統,具備高度的擴展性,輔以parquet列式存儲文件格式,能提供高吞吐量的數據存儲及訪問能力。
技術領域
本發明涉及大數據存儲領域,特別涉及到開源大數據組件parquet及HDFS的應用。
背景技術
在梯聯網行業,電梯會搭載多種感應設備以采集電梯運行狀態數據,包括電梯運行速度、轎廂溫度、人體感應等,這類數據特點為數據種類繁多、規模龐大、上報頻率高以及時序性強,這四個特點決定了對于電梯運行狀態數據的存儲、分析難度較大,梯聯網場景下,大量采集電梯運行參數數據,對于數據存儲及檢索都存在較大的性能瓶頸。
中國發明專利申請CN 106919675公開了一種數據存儲方法及裝置,根據接收到的待存儲的數據,在所述數據中查找預設的第一字段,將所述數據存儲到ElasticSearch中,并根據所述預設的第一字段建立索引并保存;根據接收到的所述待存儲的數據,在所述數據中獲取預設的第二字段,將所述數據存儲到Parquet中,并在目標目錄下建立索引并保存。該技術方案未明確Parquet文件存儲介質,不具備大規模數據存儲的擴展性及平滑擴容,存在技術風險,該技術方案未設計分區存儲方案,ElasticSearch和Parquet同步進行的處理方式在對批量數據的拉取處理中可能會存在拖慢進程和秩序混亂的問題。
發明內容
本發明首先要解決的技術問題是提供一種基于HDFS的電梯數據的列式文件存儲系統,包括存儲系統層、文件處理系統層和數據源層,其中,數據源層包括電梯實時狀態數據和電梯觸發類數據,電梯實時狀態數據每秒上報一條,電梯觸發類數據當電梯發生改變時上報,文件處理層包括數據加載模塊、數據標準化模塊、文件管理模塊和索引管理模塊,數據加載模塊連接至數據源層,對其中的數據進行加載和排序,進入緩存;數據標準化模塊對分布式緩存數據庫中的數據按照文件分區規則和業務邏輯生成Parquet文件,存儲系統層包括分布式文件系統和全文索引系統,文件管理模塊用于管理分布式文件系統中的文件夾及Parquet文件,索引管理模塊根據Parquet文件目錄來管理全文索引系統。
進一步地,文件分區規則是首先按時間分區,在按時間分區的基礎上根據文件大小進行分區。
進一步地,文件格式規則是利用Parquet配置文件中的message部分進行約束。
本發明還提供一種基于HDFS的電梯數據的列式文件存儲方法,該方法應用上述的系統,并包括以下步驟:
(1)數據加載;
(1.1)使用流式計算引擎spark streaming從消息總線kafka中獲取電梯實時數據及電梯觸發類數據;
(1.2)在spark streaming的窗口期以時間為維度對數據進行倒序排序;
(1.3)將排序后的數據按照數據種類分別存儲到數據緩存隊列中;
(2)數據標準化;
(2.1)讀取Parquet配置文件;
(2.2)分批次循環讀取數據緩存隊列中的數據;
(2.3)根據Parquet配置文件將數據生成Parquet文件;
(2.4)將文件存放到臨時目錄;
(3)創建文件目錄;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江新再靈科技股份有限公司,未經浙江新再靈科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711465597.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種互聯網信息發掘方法
- 下一篇:網頁資源文件處理方法和裝置





