[發明專利]將去除了重復的數據打包到有限大小容器中的方法和系統在審
| 申請號: | 201310242409.X | 申請日: | 2013-06-19 |
| 公開(公告)號: | CN103514247A | 公開(公告)日: | 2014-01-15 |
| 發明(設計)人: | M·海爾什;T·卡羅斯 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 吳信剛 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 除了 重復 數據 打包 有限 大小 容器 中的 方法 系統 | ||
技術領域
本發明總體上涉及計算機,更具體地講,涉及在計算環境中將去除了重復的數據打包到有限大小容器中。
背景技術
在當今社會,計算機系統已經非常普遍。可在工作場所、家里或學校發現計算機系統。計算機系統可包括數據存儲系統或盤存儲系統,用以處理和存儲數據。每天必須處理大量的數據,并且當前的趨勢為這些數據量在可預見的未來將持續增長。緩解該問題的有效方式是使用去除重復(deduplication)。基于去除重復系統的思想要利用這樣的事實:通過定位重復的數據并僅存儲其第一次出現,可得到的數據的大部分被一次又一次地復制并不加任何改變地被轉發。后續的副本被替代成指向所存儲的出現的指針,這顯著減少了數據確實重復的情況下的存儲需求。
發明內容
數據去除重復指的是減少和/或消除冗余數據。在數據去除重復中,可為文件、數據流或某其它形式的數據的數據對象被分裂成一個或多個稱為子塊的部分。在數據去除重復處理中,數據的重復副本被減少或消除,分別留下最小量的冗余副本或數據的單個副本。使用去除重復處理提供了各種益處,諸如減少所需的存儲能力和提高網絡帶寬。由于這些和其它益處,近年來,去除重復已經出現成為計算機存儲系統中高度重要的技術領域。
通常,被托付給去除重復系統的數據還必須被導出和/或備份到不同的地點。這可通過將數據復制到遠程儲存庫(repository)或再合成去除重復的數據并將再合成的數據寫入到物理磁帶來實現。然而,以其去除重復的形式將數據復制到遠程地點是低效的處理。這是因為數據中心每天產生大量數據,并且新數據足夠唯一從而新數據沒有去除重復或沒有高效地去除重復。而且,由于數據中心取決于沒去除重復的數據量和期待何時數據完成復制處理的服務水平協議,所以難以測量帶寬需求。另外,再合成處理使數據中心的資源和帶寬過度緊張,以及增加了管理開銷。再合成處理還要求物理磁帶盒與用戶數據備份的量成比例,而不是物理磁帶盒與該數據的去除重復后的大小成比例。
與之相對,并且為了解決這些低效率,示出的在此描述的實施例提供了一種將來自去除重復系統的去除重復的數據導出到提高效率和性能的替換位置。因此,并且根據前面的描述,提供了在計算環境中將去除重復的數據打包到多個有限大小容器中的各種示例性方法、系統和計算機程序產品實施例。在一個實施例中,僅通過示例的方式,計算具有去除重復的數據的相似文件之間的相似性分數。該相似性分數用于將去除重復的數據的相似比較文件分組成子集,以使每個所述子集從去除重復系統離臺(destage)到一個有限大小容器。
除了上述的示例性方法實施例,提供了其它示例性系統和計算機產品實施例并提供了相關優點。已經提供了上述概述來引入簡化形式的概念的選擇,在下面的具體實施方式部分中將進一步地詳細描述。此概述并不意圖識別要求保護的主題的關鍵特征或必要特征,也不意圖用來幫助確定要求保護的主題的范圍。要求保護的主題不限于解決了背景技術中所指出的任何或全部缺點的實施方式。
附圖說明
為了使本發明的優點容易理解,將參考在附圖中例示的具體實施例給出以上簡要描述的本發明的更具體的描述。應當理解,這些附圖繪出了本發明的實施例,但不能因此就認為是對其范圍的限制,本發明將通過附圖的使用利用另外的特征與細節進行描述和解釋,在附圖中:
圖1是示出可實現本發明的各方面的具有示例存儲裝置的計算系統環境的框圖;
圖2是示出可實現本發明的各方面的計算機系統中的數據存儲系統的硬件結構的框圖;
圖3是示出可實現本發明的各方面的示例性去除重復系統的框圖;
圖4是示出將去除重復的數據打包到多個有限大小容器中的示例性方法的流程圖;以及
圖5A至圖5B是示出將去除重復的數據打包到多個有限大小容器中的另外的示例性方法的流程圖。
具體實施方式
在整個下面的描述和要求保護的主題中,描述了與示出的實施例相關的以下術語。“文件”意圖描述去除重復系統用來在對象的用戶視圖(被發送到去除重復系統的字節流,其可能為一個或多個“用戶文件”的一部分)和該對象的內部的去除重復表示(通常為指向儲存庫中的共同和非共同數據段的指針的列表)之間進行橋接的抽象管理單位。“儲存庫”意圖指的是盤子系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310242409.X/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





