[發明專利]用于數據去重復的可縮放塊存儲有效
| 申請號: | 201110385918.9 | 申請日: | 2011-11-17 |
| 公開(公告)號: | CN102541751A | 公開(公告)日: | 2012-07-04 |
| 發明(設計)人: | 張震河;P·A·奧爾泰安;R·卡拉赫;A·古普塔;J·R·本頓;R·德塞 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F12/06 | 分類號: | G06F12/06;G06F17/30 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 羅婷婷 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 數據 重復 縮放 存儲 | ||
技術領域
本發明涉及存儲數據的方法,尤其涉及用戶數據去重復的可縮放存儲方法和系統。
背景技術
數據去重復,也稱為數據優化,是減少需要存儲在盤上或需要通過網絡上進行傳送的數據的物理字節量的動作,而不會損害原始數據的保真性和完整性。數據去重復減少了存儲數據所需的存儲容量,并且可因此導致存儲硬件成本和數據管理成本方面的節省。數據去重復提供了處理快速增長的數字存儲數據的解決方案。
數據去重復可根據用于消除各持久存儲文件之內或之間的重復的一項或多項技術來執行。例如,根據一項技術,在一個或多個文件中出現多次的唯一數據區域可被標識,并且這些所標識的唯一數據區域的單一副本可被物理地存儲??纱鎯@些所標識的唯一數據區域(也稱為數據“塊”)的引用,引用指示了包含這些唯一數據區域的各文件以及在這些文件中的位置。該技術一般稱為單一實例化。除了單一實例化以外,還可執行對數據的壓縮。其他數據減少技術也可被實現為數據去重復解決方案的一部分。
管理根據數據去重復技術來存儲的數據存在各種困難。例如,由于由數據去重復所施加的數據碎片,在訪問根據去重復來存儲的文件時存在等待時間。該等待時間限制了對數據去重復解決方案的采用,尤其是在主存儲數據上的采用,因為在主存儲數據中用戶期望對文件的無縫的、快速的訪問。而且,數據去重復算法可在專用裝置上運行,或者在存儲和服務數據的設備(例如,文件服務器)上運行。在文件服務器的示例中,數據去重復可能不是該設備的主要功能,并且因此可能需要數據去重復技術是高效的,以免過度消耗設備資源(例如,存儲器、輸入/輸出(I/O)機制、中央處理單元(CPU)能力等)。而且,由于數字數據量的以非常高的速度增長,存儲設備(例如,存儲盤)的大小以及與計算設備相關聯的總存儲容量也必須增大,從而導致不能對增加的存儲量進行很好地縮放的數據去重復技術的困難。
發明內容
提供本發明內容是為了以精簡的形式介紹將在以下具體實施方式中進一步描述的一些概念。本發明內容并不旨在標識所要求保護主題的關鍵特征或必要特征,也不旨在用于限制所要求保護主題的范圍。
提供了用于本地化存儲中的數據塊、用于定位所存儲的數據塊、用于存儲數據流、以及用于重組織已存儲的數據流的方法、系統和計算程序產品。
例如,提供了用于本地化存儲中的數據塊的各種實現。數據流被解析成數據塊序列。確定數據塊序列中的任何一個數據塊是否被存儲在包括多個數據塊的塊容器中。以相鄰的排列并以塊容器中與數據流中的順序相同順序來存儲數據塊序列中被確定為沒有存儲在塊容器內的數據塊。為數據塊序列中的每一數據塊生成元數據。數據塊序列中的數據塊的元數據包括該數據塊在數據流中的偏移、指向該數據塊在塊容器內的位置的指針、以及該數據塊的位置指示符。為包括所生成的元數據的數據流生成流映射。將該流映射存儲在流容器中。
而且,提供了用于可靠地定位存儲中的數據塊的實現。對數據塊的請求被接收。該請求包括數據塊的標識符。數據塊標識符包括塊容器標識符、局部標識符、塊容器階段值、和第一塊偏移值。塊容器標識符用于定位塊容器。如果塊容器的階段指示匹配于塊容器階段值,則可使用第一塊偏移值在塊容器中定位數據塊。如果塊容器的階段指示不匹配于塊容器階段值,則使用與塊容器相關聯的重定向表來定位數據塊。可搜索重定向表以得到包括本地標識符的匹配的條目。該條目包括與第一塊偏移值不同的第二塊偏移值。從塊容器檢索在第二塊偏移值處的數據塊。
在其他方面,提供用于存儲數據流和對數據流進行碎片整理的實現。存儲對重復數據塊的最小可允許數的指示。累積來自數據流的數據塊的序列。如果所累積的數據塊序列是重復序列(例如,如果該數據塊序列匹配所存儲的數據塊序列),但其具有小于最小可允許數的長度,則將該數據塊序列作為新數據塊相鄰地存儲在塊容器中。此外,指向新數據塊的指針被存儲在數據流的流映射中。如果所累積的數據塊序列被確定為是重復序列且具有大于或等于最小可允許數的長度,則將指向之前存儲的數據塊序列的指針存儲在數據流的流映射中(而不是將該所累積的序列作為新數據塊來存儲)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110385918.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種廢舊電線/電纜切粒機
- 下一篇:一種高清視頻實時藍光刻錄裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





