[發(fā)明專(zhuān)利]一種用于數(shù)據(jù)去重系統(tǒng)中的碎片重寫(xiě)方法有效

申請(qǐng)?zhí)枺?/td>	201310383204.3	申請(qǐng)日：	2013-08-28
公開(kāi)（公告）號(hào)：	CN103473150A	公開(kāi)（公告）日：	2013-12-25
發(fā)明（設(shè)計(jì)）人：	劉景寧;馮丹;周鵬舉;許蔚;付忞	申請(qǐng)（專(zhuān)利權(quán)）人：	華中科技大學(xué)
主分類(lèi)號(hào)：	G06F11/14	分類(lèi)號(hào)：	G06F11/14;G06F3/06
代理公司：	華中科技大學(xué)專(zhuān)利中心 42201	代理人：	朱仁玲
地址：	430074 湖北***	國(guó)省代碼：	湖北;42
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種用于數(shù)據(jù) 系統(tǒng) 中的碎片重寫(xiě) 方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

技術(shù)領(lǐng)域

本發(fā)明屬于計(jì)算機(jī)信息存儲(chǔ)領(lǐng)域，具體涉及一種基于數(shù)據(jù)去重技術(shù)系統(tǒng)的碎片重寫(xiě)方法。

背景技術(shù)

數(shù)據(jù)去重技術(shù)(重復(fù)數(shù)據(jù)刪除技術(shù))作為一種能夠識(shí)別和消除冗余數(shù)據(jù)、只存儲(chǔ)單一副本數(shù)據(jù)的縮減技術(shù)，在備份存儲(chǔ)系統(tǒng)、歸檔存儲(chǔ)系統(tǒng)、甚至文件系統(tǒng)中都具有廣泛應(yīng)用。例如，使用數(shù)據(jù)去重技術(shù)在備份存儲(chǔ)系統(tǒng)、歸檔存儲(chǔ)系統(tǒng)中可以消除80%～90%的冗余數(shù)據(jù)，在虛擬機(jī)備份中可消除高達(dá)80%的冗余數(shù)據(jù)，在文件系統(tǒng)中可以節(jié)省3/4的文件空間開(kāi)銷(xiāo)以及87%的備份鏡像開(kāi)銷(xiāo)。

然而，在基于數(shù)據(jù)去重的系統(tǒng)中，后續(xù)存儲(chǔ)的文件的數(shù)據(jù)塊共享之前存儲(chǔ)的文件的數(shù)據(jù)塊，從而數(shù)據(jù)塊被分散而非連續(xù)地存儲(chǔ)在磁盤(pán)上，形成大量的分散存儲(chǔ)碎片，對(duì)系統(tǒng)的讀性能造成重大影響。隨著存儲(chǔ)文件的數(shù)量的增加，后續(xù)文件的數(shù)據(jù)碎片化趨于嚴(yán)重，從而讀性能也逐漸下降。在讀數(shù)據(jù)時(shí)，盡管增大讀緩存大小可以相對(duì)提高讀性能，但提高的程度有限，增大讀緩存大小不能從根本上解決問(wèn)題。比如在基于數(shù)據(jù)去重技術(shù)的備份系統(tǒng)中最后存儲(chǔ)的文件(版本)的數(shù)據(jù)讀(恢復(fù))性能比第一個(gè)文件（版本）降低了約10倍甚至更多，這將嚴(yán)重影響系統(tǒng)的可用性，尤其在災(zāi)難恢復(fù)的時(shí)候。由數(shù)據(jù)去重引起的數(shù)據(jù)碎片不像磁盤(pán)碎片可以通過(guò)后臺(tái)整理而重新保證數(shù)據(jù)的連續(xù)性。因數(shù)據(jù)塊之間存在共享，重新遷移數(shù)據(jù)塊將涉及到索引更新等更復(fù)雜的問(wèn)題，所以數(shù)據(jù)去重系統(tǒng)中的讀性能是一個(gè)急需解決的問(wèn)題。

現(xiàn)有一些碎片重寫(xiě)算法，通過(guò)在數(shù)據(jù)去重的過(guò)程中重寫(xiě)一定的數(shù)據(jù)碎片來(lái)解決數(shù)據(jù)的讀性能問(wèn)題。例如，CFL(Chunk?Fragmentation?Level)算法通過(guò)判定相鄰數(shù)據(jù)塊的大小之和與一個(gè)容器(Container：一個(gè)在內(nèi)存中的緩存，作為磁盤(pán)讀寫(xiě)的一種單位)的比值，如果小于一定的閥值則重寫(xiě)；CBR(Context-based?rewriting)算法通過(guò)比較固定長(zhǎng)度的數(shù)據(jù)流內(nèi)容（比如5MB）與其對(duì)應(yīng)固定長(zhǎng)度的磁盤(pán)內(nèi)容的相似性，如果其比值小于一定的閥值則重寫(xiě)，一般是重寫(xiě)碎片數(shù)據(jù)總量的5%。Capping是一個(gè)相對(duì)簡(jiǎn)單的策略，對(duì)每固定長(zhǎng)度的數(shù)據(jù)流選擇固定大小的Container個(gè)數(shù)，對(duì)其中引用Container次數(shù)最少的數(shù)據(jù)塊進(jìn)行重寫(xiě)。

以上三種碎片重寫(xiě)算法都是通過(guò)重寫(xiě)數(shù)據(jù)碎片并犧牲一定的去重率來(lái)提高讀性能，但是它們共同的缺陷是：沒(méi)有考慮讀緩存對(duì)碎片的影響，重寫(xiě)已被預(yù)取到讀緩存的數(shù)據(jù)碎片會(huì)同時(shí)降低讀性能和去重率。

發(fā)明內(nèi)容

本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求，提出一種優(yōu)化的碎片重寫(xiě)方法，其對(duì)判定出為碎片的數(shù)據(jù)塊進(jìn)行選擇性重寫(xiě)，由此減少不必要的碎片數(shù)據(jù)的重寫(xiě)，解決目前數(shù)據(jù)去重系統(tǒng)中存在的碎片大量重寫(xiě)而帶來(lái)的去重率降低與讀性能降低的技術(shù)問(wèn)題，相比與現(xiàn)有的碎片重寫(xiě)算法，具有更高的讀性能和去重率。

為實(shí)現(xiàn)本發(fā)明目的，按照本發(fā)明的一個(gè)方面，提供一種用于數(shù)據(jù)去重系統(tǒng)的碎片重寫(xiě)方法，其特征在于，在數(shù)據(jù)去重中增加一個(gè)緩存作為重寫(xiě)感知緩存，該重寫(xiě)感知緩存中的數(shù)據(jù)項(xiàng)為數(shù)據(jù)塊所引用的容器標(biāo)識(shí)(Container?ID)，對(duì)判定為數(shù)據(jù)碎片的數(shù)據(jù)塊，如果其引用的容器標(biāo)識(shí)(Container?ID)已存儲(chǔ)在該重寫(xiě)感知緩存中，則此數(shù)據(jù)無(wú)需重寫(xiě)，否則重寫(xiě)該數(shù)據(jù)碎片。

作為本發(fā)明的進(jìn)一步優(yōu)選，所述的重寫(xiě)感知緩存為與讀數(shù)據(jù)或恢復(fù)數(shù)據(jù)時(shí)同樣大小且采用相同緩存策略的緩存。其中，所述大小是指緩存項(xiàng)的數(shù)量，而不是內(nèi)存空間開(kāi)銷(xiāo)。

作為本發(fā)明的進(jìn)一步優(yōu)選，所述的重寫(xiě)感知緩存和讀(恢復(fù))數(shù)據(jù)緩存為L(zhǎng)RU替換策略的緩存。

作為本發(fā)明的進(jìn)一步優(yōu)選，該增加的緩存為模擬恢復(fù)緩存行為的緩存。

按照本發(fā)明的另一個(gè)方面，提供一種用于數(shù)據(jù)去重系統(tǒng)的碎片重寫(xiě)方法，通過(guò)增加一個(gè)用于存儲(chǔ)數(shù)據(jù)塊引用的容器標(biāo)識(shí)（Container?ID）的重寫(xiě)感知緩存，來(lái)實(shí)現(xiàn)高性能數(shù)據(jù)重寫(xiě)，其特征在于，該方法包括如下步驟：

(1)對(duì)新來(lái)的數(shù)據(jù)塊進(jìn)行去重判斷，如果不是重復(fù)數(shù)據(jù)，則存儲(chǔ)此數(shù)據(jù)塊,否則執(zhí)行步驟(2)；

(2)判斷當(dāng)前數(shù)據(jù)塊是否為一個(gè)數(shù)據(jù)碎片，如果不是則不用重寫(xiě)，否則執(zhí)行步驟(3)；

(3)判斷當(dāng)前數(shù)據(jù)碎片是否應(yīng)當(dāng)重寫(xiě)，即如果當(dāng)前數(shù)據(jù)碎片引用的容器標(biāo)識(shí)（Container?ID）存儲(chǔ)在該重寫(xiě)感知緩存中，則不用重寫(xiě)，否則將當(dāng)前數(shù)據(jù)碎片作為新數(shù)據(jù)重寫(xiě)。

作為本發(fā)明的進(jìn)一步優(yōu)選，所述的重寫(xiě)感知緩存為與讀數(shù)據(jù)或恢復(fù)數(shù)據(jù)時(shí)同樣大小且相同緩存策略的緩存，大小是指緩存項(xiàng)的個(gè)數(shù)。

作為本發(fā)明的進(jìn)一步優(yōu)選，所述的重寫(xiě)感知緩存和讀數(shù)據(jù)或恢復(fù)數(shù)據(jù)緩存為L(zhǎng)RU緩存。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華中科技大學(xué)，未經(jīng)華中科技大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310383204.3/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

上一篇：數(shù)據(jù)庫(kù)表的備份方法及裝置
下一篇：基于線程池的多任務(wù)隊(duì)列調(diào)度方法

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè)；錯(cuò)誤校正；監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生，例如，容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi)，通過(guò)測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過(guò)處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過(guò)軟件的測(cè)試或調(diào)試防止錯(cuò)誤

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專(zhuān)利文獻(xiàn)下載

說(shuō)明：

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū)；

2、支持發(fā)明專(zhuān)利、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利（升級(jí)中）；

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】