[發明專利]用于數據去重的方法和設備在審
申請號: | 201611193455.5 | 申請日: | 2016-12-21 |
公開(公告)號: | CN108228083A | 公開(公告)日: | 2018-06-29 |
發明(設計)人: | 吳飛;鄒勇;肖林;葉誠;吳鵬 | 申請(專利權)人: | 伊姆西IP控股有限責任公司 |
主分類號: | G06F3/06 | 分類號: | G06F3/06 |
代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華 |
地址: | 美國馬*** | 國省代碼: | 美國;US |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 存儲節點 主存儲 去重 備份 方法和設備 采樣數據 目標存儲節點 節點發送 節點接收 客戶端處 數據采樣 客戶端 集群 存儲 發送 響應 | ||
本公開的實施例公開了用于數據去重的方法和設備。在客戶端執行的數據去重的方法包括:響應于在客戶端處接收到待備份的數據,對所述待備份的數據采樣以得到采樣數據;生成用于所述采樣數據的簽名;向包括多個存儲節點的存儲集群中的主存儲節點發送所述簽名,以允許所述主存儲節點從所述多個存儲節點中選擇一個存儲節點;從所述主存儲節點接收所選擇的存儲節點的指示;以及基于所述指示向所述所選擇的目標存儲節點發送所述待備份的數據。本公開的實施例還提供在主存儲節點和從存儲節點處執行的數據去重方法,以及相應的設備。
技術領域
本公開的實施例總體上涉及數據處理方法和設備,并且具體地,涉及對存儲系統中重復冗余數據的去重方法和設備。
背景技術
在數據存儲系統尤其是在備份和歸檔存儲系統中,數據的冗余度通常較高。而在某個周期時段內,所存儲數據的變化可能并不大。例如在虛擬機的應用場景中,數據中心存在成千上萬的虛擬機應用,存儲空間需求龐大,而每天每個虛擬機的變化一般較小,例如每天50MB的數據變化。因此,在這樣的存儲系統中需要改善存儲空間的利用以及優化存儲,以減少數據在磁盤上的占用空間。其中一種有效的解決方案是利用重復數據刪除(de-duplication)技術。
重復數據刪除技術是一種基于冗余數據去除的特殊數據壓縮技術,旨在減少存儲系統中使用的存儲容量。然而,面對數據的高速增長,單一的重復數據刪除服務器已經難以滿足擴展性的需求。因此,橫向擴展(scaleout)存儲系統或集群存儲系統應運而生。也就是說,在集群存儲系統中,存在多個重復數據刪除服務器(或稱之為集群節點)。然而傳統的數據去重方案無法在實現良好去重效果的同時確保整個存儲系統的負載均衡和/或最小化對上層應用的影響。
發明內容
總體上,本公開的實施例提供一種優化集群存儲系統的數據去重處理的解決方案。
在本公開的第一方面,提供一種用于數據去重的方法。該方法包括:一種數據去重的方法,包括:響應于在客戶端處接收到待備份的數據,對待備份的數據采樣以得到采樣數據;生成用于采樣數據的簽名;向包括多個存儲節點的存儲集群中的主存儲節點發送簽名,以允許主存儲節點從多個存儲節點中選擇一個存儲節點;從主存儲節點接收所選擇的存儲節點的指示;以及基于指示向所選擇的目標存儲節點發送待備份的數據。
在某些實施例中,多個存儲節點以固定長度的分段來存儲數據,并且對待備份的數據采樣包括:基于固定長度對待備份的數據進行分段以得到多個數據段;以及對多個數據段采樣以得到多個采樣數據段。
在某些實施例中,多個存儲節點以可變長度的分段來存儲數據,并且對待備份的數據采樣包括執行以下一次或多次:隨機地選擇用于采樣的起始位置;從起始位置起,以與可變長度相對應的模式來識別待備份的數據的預定數目的錨點;以及采樣緊隨錨點的數據段作為采樣數據段。在某些實施例中,其中對采樣數據生成簽名包括對采樣數據段進行數字簽名以獲得指紋,并且其中向主存儲節點發送簽名包括向主存儲節點發送指紋。
在某些實施例中,對待備份的數據采樣包括:響應于待備份的數據的大小低于第一預定閾值,對待備份的數據進行分段以得到多個數據段作為采樣數據。
在某些實施例中,對采樣數據生成簽名包括:對多個數據段進行數字簽名以獲得與多個數據段相對應的多個指紋;以及確定多個指紋中指紋值為預定值的第一指紋。
在某些實施例中,該方法還包括:從主存儲節點接收用于進行附加數據采樣的附加指示;基于附加指示,對待備份的數據進行附加采樣以得到附加采樣數據;生成用于附加采樣數據的附加簽名;以及向主存儲節點發送附加簽名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于伊姆西IP控股有限責任公司,未經伊姆西IP控股有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611193455.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:存儲系統和用于存儲控制的方法
- 下一篇:用于管理存儲系統的方法和設備