[發明專利]一種基于HDFS的電梯數據的列式文件存儲系統及方法在審
| 申請號: | 201711465597.7 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108319652A | 公開(公告)日: | 2018-07-24 |
| 發明(設計)人: | 萬敏;張儀;丁凌峰;張雷;陳小游 | 申請(專利權)人: | 浙江新再靈科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州天昊專利代理事務所(特殊普通合伙) 33283 | 代理人: | 董世博;何碧珩 |
| 地址: | 310051 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電梯 實時狀態數據 文件存儲系統 電梯數據 數據源層 觸發 存儲 數據加載模塊 索引管理模塊 文件處理系統 文件管理模塊 數據標準化 文件處理層 上報 存儲系統 高吞吐量 技術難題 數據存儲 文件格式 文件系統 系統設計 擴展性 容錯性 訪問 | ||
1.一種基于HDFS的電梯數據的列式文件存儲系統,其特征是,包括存儲系統層、文件處理系統層和數據源層,其中,數據源層包括電梯實時狀態數據和電梯觸發類數據,電梯實時狀態數據每秒上報一條,電梯觸發類數據當電梯發生改變時上報,文件處理層包括數據加載模塊、數據標準化模塊、文件管理模塊和索引管理模塊,數據加載模塊連接至數據源層,對其中的數據進行加載和排序,進入緩存;數據標準化模塊對分布式緩存數據庫中的數據按照文件分區規則和文件格式規則生成Parquet文件,存儲系統層包括分布式文件系統和全文索引系統,文件管理模塊用于管理分布式文件系統中的文件夾及Parquet文件,索引管理模塊根據Parquet文件目錄來管理全文索引系統。
2.根據權利要求1所述的一種基于HDFS的電梯數據的列式文件存儲系統,其特征是,文件分區規則是首先按日分區,在按日分區的基礎上根據文件大小進行分區。
3.根據權利要求1所述的一種基于HDFS的電梯數據的列式文件存儲系統,其特征是,文件格式規則是按照Parquet配置文件中的message部分進行約束。
4.一種基于HDFS的電梯數據的列式文件存儲方法,其特征是,該方法應用權利要求1所述的系統,并包括以下步驟:
(1)數據加載;
(1.1)使用流式計算引擎spark streaming從消息總線kafka中獲取電梯實時數據及電梯觸發類數據;
(1.2)在spark streaming的窗口期以時間為維度對數據進行倒序排序;
(1.3)將排序后的數據按照數據種類分別存儲到數據緩存隊列中;
(2)數據標準化;
(2.1)讀取Parquet配置文件;
(2.2)分批次循環讀取數據緩存隊列中的數據;
(2.3)根據Parquet配置文件將數據生成Parquet文件;
(2.4)將文件存放到臨時目錄;
(3)文件管理;
(3.1)掃描文件臨時目錄;
(3.2)確定文件存放目錄; (3.3)在HDFS中創建文件目錄;
(3.4)上傳文件至相應的目錄;
(4)索引管理;
(4.1)掃描文件臨時目錄;
(4.2)根據文件名生成索引記錄;
(4.3)調用ElasticSearch服務器創建索引。
5. 根據權利要求2所述的一種基于HDFS的電梯數據的列式文件存儲方法,其特征是,文件目錄按照時間順序建立,文件命名規則為yyyy-mm-dd hh:mm:ss~yyyy-mm-dd hh:mm:ss.par,第一個時間為最早數據時間,第二個時間為最晚數據時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江新再靈科技股份有限公司,未經浙江新再靈科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711465597.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種互聯網信息發掘方法
- 下一篇:網頁資源文件處理方法和裝置





