[發明專利]一種數據壓縮存儲方法以及數據壓縮存儲裝置在審
| 申請號: | 201711455790.2 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108304472A | 公開(公告)日: | 2018-07-20 |
| 發明(設計)人: | 何東杰 | 申請(專利權)人: | 中國銀聯股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 臧霽晨;楊美靈 |
| 地址: | 200135 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據壓縮存儲 壓縮 數據內容 數據壓縮 字段 數據壓縮效率 數據壓縮率 原始數據 通用的 存儲 | ||
本發明涉及數據壓縮存儲方法以及數據壓縮存儲裝置。該數據壓縮方法包括下述步驟:切分步驟,將原始數據切分成多個字段;以及壓縮步驟,基于數據內容的不同,對于不同字段采用不同的壓縮策略進行壓縮并存儲壓縮后的壓縮數據。根據本發明的數據壓縮存儲方法以及數據壓縮存儲裝置,能夠考慮到數據內容的不同而采用不同的壓縮方法,能夠有效提高數據壓縮效率,相比通用的GZIP、SNAPPY等數據壓縮工具,在數據壓縮率上有明顯的提升。
技術領域
本發明涉及數據處理技術,具體涉及一種數據壓縮存儲方法以及數據壓縮存儲裝置。
背景技術
企業在進行數據存儲時候,從節約存儲空間以及提升讀取效率方面考慮,一般都會對數據進行壓縮存儲。但是,通用的壓縮工具針對的是所有的數據。
再者,現有的常見的數據壓縮工具包括GZIP、SNAPPY等,是針對通用數據進行壓縮。
但是,如上所說,目前企業進行數據存儲時采用的壓縮工具是對所有數據通用的工具,對企業來說,沒有充分考慮到企業數據的特點。因此,數據的壓縮效率并不是很高。
發明內容
鑒于所述問題,本發明旨在提出一種進一步數據壓縮存儲方法以及數據壓縮存儲裝置。
本發明的數據壓縮存儲方法,其特征在于,包括下述步驟:
切分步驟,將原始數據切分成多個字段;以及
壓縮步驟,基于數據內容的不同,對于不同字段采用不同的壓縮策略進行壓縮并存儲壓縮后的壓縮數據。
優選地,在所述壓縮步驟中,判斷字段之間的關聯關系強弱,根據關聯關系強弱,設定壓縮策略。
優選地,所述壓縮步驟包括下述子步驟:
對切成多個字段的數據進行內容分析,建立字段之間的關聯關系;以及
針對單個字段,對于不同的數據內容采用不同的壓縮策略進行壓縮存儲。
優選地,所述壓縮步驟包括下述子步驟:
對切成多個字段的數據進行內容分析,建立數據分布圖以及字段之間的關聯關系圖,基于數據分布圖以及關聯關系圖識別數據字段之間的相關關系;以及
將存在相關關系的多個字段進行組合,針對組合后的字段,對于不同的數據內容采用不同的壓縮策略進行壓縮存儲。
優選地,所述壓縮步驟包括下述子步驟:
對切成多個字段的數據進行內容分析,建立數據分布圖以及字段之間的關聯關系圖,基于數據分布圖以及關聯關系圖識別數據字段之間的相關關系;以及
針對單個字段,對于不同的數據內容采用不同的壓縮策略進行壓縮存儲,并且,另一方面,也將存在相關關系的多個字段進行組合,針對組合后的字段,對于不同的數據內容采用不同的壓縮策略進行壓縮存儲。
優選地,作為壓縮策略,對于枚舉型字符串字段使用二進制進行壓縮存儲、對于字符串數值轉換為整數或者浮點進行壓縮存儲。
優選地,作為壓縮策略,將短字段進行組合后再進行壓縮存儲、將近似字段壓縮冗余信息后進行壓縮存儲、對于字段之間信息逆序的僅存儲其中一個、對于字段之間存在包含關系的壓縮冗余信息后存儲。
優選地,作為壓縮策略,對于枚舉型字符串字段使用二進制進行壓縮存儲、將字符串數值轉換為整數或者浮點進行壓縮存儲、將短字段進行組合后再進行壓縮存儲、將近似字段壓縮冗余信息后進行壓縮存儲、對于字段之間信息逆序的僅存儲其中一個、對于字段之間存在包含關系的壓縮冗余信息后存儲。
優選地,進一步具備:
映射關系存儲步驟,建立所述原始數據與所述壓縮數據之間的映射關系并存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀聯股份有限公司,未經中國銀聯股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711455790.2/2.html,轉載請聲明來源鉆瓜專利網。





