[發明專利]壓縮方法和系統以及云存儲方法和系統有效
| 申請號: | 201410166852.8 | 申請日: | 2014-04-23 |
| 公開(公告)號: | CN105022741B | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 孫崎 | 申請(專利權)人: | 蘇寧易購集團股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
| 代理公司: | 北京市萬慧達律師事務所 11111 | 代理人: | 張金芝;楊穎 |
| 地址: | 210000 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 壓縮 方法 系統 以及 存儲 | ||
本發明提供一種壓縮方法和系統以及云存儲方法和系統,屬于云計算技術領域。該壓縮方法包括步驟:查詢與第一分片數據相似的相關數據,并向元數據服務器查詢所述相關數據所在的存儲服務器信息;根據所述元數據服務器返回的信息,指示所述第一分片數據或所述相關數據所在的存儲服務器調度數據并執行對應的壓縮操作。本發明通過判定兩個數據塊之間的相似性,將高相似性的數據塊調度到同一個存儲服務器上進行壓縮,從而獲得較高的壓縮比,更加節約存儲空間。
技術領域
本發明涉及云計算技術領域,特別涉及一種壓縮方法和系統以及云存儲方法及其系統。
背景技術
云存儲是指通過集群應用、網格技術或分布式文件系統等功能,將網絡中大量不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的云計算系統。在云存儲系統中,文件一般被分片(Chunk)保存在多個存儲服務器(又名Chunk Server)中。分片大小一般是固定的,例如按照64MB大小進行分片。
在云存儲系統中,為了提高存儲利用率,一般會提供重復數據刪除(又叫重刪、消重)和數據壓縮等存儲策略。重復數據刪除基于文件或者分片的粒度進行,使得相同的數據,在系統中邏輯上只保持一份。數據壓縮已有很多無損壓縮/解壓算法,如LZO,GZIP,Zippy/Snappy等,可基于文件或者分塊為單位,對數據進行壓縮后保存。
發明人發現目前云存儲系統中的重刪和壓縮策略在使用中存在如下缺點:基本的重刪功能要求文件或者數據塊完全一致,計算出的數據指紋(例如SHA-1摘要)才會一致。數據指紋算法具有雪崩效應,只要數據有一個字節的不同,指紋就會完全不同,無法消重。如果采用滑動窗口法或者變長分塊法進行消重,一方面需要大量的計算,另一方面只要兩塊數據之間略有周期性的若干字節不同,仍然無法消重。壓縮策略,對某些類型或應用的數據較有效,對另一些原本已經是壓縮的數據,如H.264的視頻數據無效。此外,即使用戶數據可以壓縮,對用戶的單個塊數據,或者以單個文件為單位進行壓縮,往往效果也有限。在現有技術中,由于消重、壓縮都是消耗較多計算資源的操作,如果效果不明顯, 就會降低云存儲系統的存儲利用率,同時降低了云存儲系統的性能。
發明內容
針對現有技術的上述缺陷,本發明所要解決的技術問題是如何有效提高云存儲系統的存儲利用率及性能。
為實現上述目的,一方面,本發明的實施例中提供一種云存儲的壓縮方法,包括步驟:
查詢與第一分片數據相似的相關數據,并向元數據服務器查詢所述相關數據所在的存儲服務器信息;
根據所述元數據服務器返回的信息,指示所述第一分片數據或所述相關數據所在的存儲服務器調度數據并執行對應的壓縮操作。
優選地,所述方法中,所述查詢與第一分片數據相似的相關數據進一步包括步驟:
通過相對熵原理計算所述第一分片數據的詞頻率-逆向文檔頻率值來獲取所述第一分片數據的特征向量;
通過余弦定理計算所述第一分片數據的特征向量與其他分片數據的特征向量之間的夾角,根據所述夾角確定分片數據之間的相似度,找出與所述第一分片數據最相似的第二分片數據或者所述第二分片數據被壓縮后的第三分片數據。
優選地,所述方法中,所述指示所述第一分片數據或所述相關數據所在的存儲服務器調度數據并執行對應的壓縮操作進一步包括步驟:
在所述第一分片數據所在的第一存儲服務器的信息與所述相關數據所在的第二存儲服務器的信息不同時,將數據量少的數據調度至對方存儲服務器上,并在自身存儲服務器上刪除所述數據量少的數據,同時更新元數據信息;
通知所述對方存儲服務器執行對所述第一分片數據與所述相關數據的合并壓縮。
優選地,所述方法中,所述查詢與第一分片數據相似的相關數據還包括步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇寧易購集團股份有限公司,未經蘇寧易購集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410166852.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種運單地址分級方法及裝置
- 下一篇:非結構化數據的處理方法和裝置





