[發明專利]一種字段存儲方法、裝置、設備及存儲介質在審
| 申請號: | 202110559373.2 | 申請日: | 2021-05-21 |
| 公開(公告)號: | CN113297219A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 張永興;孫華錦;王江;李樹青 | 申請(專利權)人: | 山東云海國創云計算裝備產業創新中心有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 侯珊 |
| 地址: | 250001 山東省濟南市自由貿易試驗*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 字段 存儲 方法 裝置 設備 介質 | ||
本發明公開了一種字段存儲方法,該方法包括:獲取待存儲的第一字段;根據哈希位寬確定第一字段的第一哈希值;確定與第一字段對應的第一二進制信息;從第一二進制信息中確定原文標簽,其中,該原文標簽的位數為第一二進制信息的總位數與哈希位寬之差;利用第一哈希值將原文標簽存儲至哈希表。可見,本方案在存儲字段時,通過原文標簽替換字段的二進制信息進行存儲,由于原文標簽的位數比字段的二進制信息的位數少,因此本方案可節省存儲空間;本發明還公開了一種字段存儲裝置、設備及存儲介質,同樣可以實現上述技術效果。
技術領域
本發明涉及數據存儲技術領域,更具體地說,涉及一種字段存儲方法、裝置、設備及存儲介質。
背景技術
隨著云計算對傳統計算架構的替代,數據存儲的結構也在發生變化,計算資源和存儲資源將進一步向頭部的數據中心聚合,進一步給服務器存儲帶來壓力。面對這些持續增加的海量數據,數據壓縮成為減輕服務器存儲負擔,降低存儲成本的有效方法之一。數據壓縮主要體現在重復冗余數據的壓縮處理,可分為兩步實現:首先,查找重復數據,判斷前文中是否有與當前數據相同的段落,并得到前文的地址。然后表征重復數據,按照一定的規則表示重復數據,通常利用游程編碼表征。
目前,硬件電路實現數據壓縮,需要對當前字段之前一定長度的前文緩存。通常將前文劃分為若干個字段,將每個字段的信息獨立緩存,需要存儲的信息包括:字段的文字內容及字段的偏移地址。目前主流的數據壓縮算法都是基于Hash計算查找重復數據,其實現原理為:計算當前字段X的Hash值H(X),以H(X)為索引尋址查詢Hash表是否存在與當前字段相同的重復數據,如果有重復數據,記錄所有重復數據的地址。可見,目前壓縮算法需要通過字段的Hash值及原文信息進行重復數據查找,因此Hash表中需要存儲與每個字段對應的Hash值及原文信息,占用了較多的存儲空間。
發明內容
本發明的目的在于提供一種字段存儲方法、裝置、設備及存儲介質,以減少存儲字段所占用的存儲空間。
為實現上述目的,本發明提供的一種字段存儲方法,包括:
獲取待存儲的第一字段;
根據哈希位寬確定所述第一字段的第一哈希值;
確定與所述第一字段對應的第一二進制信息;
從所述第一二進制信息中確定原文標簽,其中,所述原文標簽的位數為所述第一二進制信息的總位數與所述哈希位寬之差;
利用所述第一哈希值將所述原文標簽存儲至哈希表。
其中,從所述第一二進制信息中確定原文標簽,包括:
從所述第一二進制信息的低位中截取低位信息作為所述原文標簽。
其中,從所述第一二進制信息中確定原文標簽,包括:
從所述第一二進制信息的高位中截取高位信息作為所述原文標簽。
其中,所述第一二進制信息的總位數的確定方法包括:
確定所述第一字段的總字節數;
將所述總字節數與8的乘積作為所述總位數。
其中,利用所述第一哈希值將所述原文標簽存儲至哈希表之后,還包括:
接收數據查重指令;所述數據查重指令中攜帶待查重的第二字段;
根據所述哈希位寬確定所述第二字段的第二哈希值;
確定與所述第二字段對應的第二二進制信息;
從所述第二二進制信息中確定待查重標簽,其中,所述待查重標簽的位數為所述第二二進制信息的總位數與所述哈希位寬之差;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東云海國創云計算裝備產業創新中心有限公司,未經山東云海國創云計算裝備產業創新中心有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110559373.2/2.html,轉載請聲明來源鉆瓜專利網。





