[發明專利]混合文件存儲方法及裝置在審
| 申請號: | 201811531340.1 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109684293A | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 中國人民銀行清算總中心 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/13 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤 |
| 地址: | 100048 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 混合文件 組元 存儲 讀取 待存儲文件 存儲規則 存儲空間 分析文件 明細查詢 生成數據 數據存儲 數據對應 統計查詢 信息存儲 原信息 預設 分析 | ||
本發明提供了一種混合文件存儲方法及裝置。所述方法包括:讀取待存儲文件中的數據;分析所述數據,并生成數據明細;根據所述數據明細,生成頁組元信息;根據預設存儲規則,將所述數據及所述頁組元信息存儲至對應的存儲空間中。本發明通過分析文件數據,得到數據對應的頁組原信息,使得數據存儲更加完善、便捷,此外還實現了既可以滿足明細查詢的需求,也可以滿足統計查詢的需求的目的。
技術領域
本發明涉及混合文件存儲技術領域,尤指一種混合文件存儲方法及裝置。
背景技術
在大數據應用場景下,通常會包含明細查詢和統計查詢兩種應用需求。明細查詢通過指定條件從結構化數據中過濾出符合條件的多行數據,比如以Hbase為例,通過建立行鍵索引,可以快速查詢出符合條件的數據,數據通常在邏輯上以完整行的形式返回。統計查詢通常通過指定條件進行數據過濾,只需返回某些列的數據即可,再加上聚合等算子操作完成最終的統計數據返回,比如通過hive執行groupby操作,完成針對parquet格式的數據聚合。Hbase的行鍵設計和數據以列族形式組織存儲,以及針對統計查詢的parquet行列存儲格式可以非常有效的適用于上述兩種大數據應用場景下的數據高效查詢需求。但是其弊端是有時為了同時滿足上述兩種場景的結果響應時間要求,有時不得不存儲兩份數據,以空間換時間的方式滿足需求。
發明內容
為了解決現有混合文件存儲技術中存在的存儲效率低、浪費存儲空間等問題,本發明實施例提供一種混合文件存儲方法,所述方法包括:
讀取待存儲文件中的數據;
分析所述數據,并生成數據明細;
根據所述數據明細,生成頁組元信息;
根據預設存儲規則,將所述數據及所述頁組元信息存儲至對應的存儲空間中。
可選的,在本發明一實施例中,逐條讀取所述待存儲文件中的數據;當讀取的數據條數達到預設條數時,分析所述預設條數的數據,并生成所述預設條數的數據對應的數據明細。
可選的,在本發明一實施例中,所述頁組元信息包括:數據條數信息、數據長度信息、數據排序信息及加總統計值。
可選的,在本發明一實施例中,所述根據預設存儲規則,將所述數據及所述頁組元信息存儲至對應的存儲空間中包括:根據所述預設存儲規則,將所述數據及所述頁組元信息轉換為連續的二進制數據,將所述二進制數據順序存儲在對應的存儲空間中。
本發明實施例還提供一種混合文件存儲裝置,所述裝置包括:
讀取單元,用于讀取待存儲文件中的數據;
分析單元,用于分析所述數據,并生成數據明細;
元信息單元,用于根據所述數據明細,生成頁組元信息;
存儲單元,用于根據預設存儲規則,將所述數據及所述頁組元信息存儲至對應的存儲空間中。
可選的,在本發明一實施例中,所述裝置還包括:逐條讀取單元,用于逐條讀取所述待存儲文件中的數據;部分數據分析單元,用于當讀取的數據條數達到預設條數時,分析所述預設條數的數據,并生成所述預設條數的數據對應的數據明細。
可選的,在本發明一實施例中,所述頁組元信息包括:數據條數信息、數據長度信息、數據排序信息及加總統計值。
可選的,在本發明一實施例中,所述存儲單元包括:數據轉換模塊,用于根據所述預設存儲規則,將所述數據及所述頁組元信息轉換為連續的二進制數據,將所述二進制數據順序存儲在對應的存儲空間中。
本發明實施例還提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現以下步驟:
讀取待存儲文件中的數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民銀行清算總中心,未經中國人民銀行清算總中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811531340.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種閃存數據庫快速進行數據恢復的方法
- 下一篇:小文件處理方法及分布式系統





