[發(fā)明專(zhuān)利]一種用于數(shù)據(jù)去重系統(tǒng)中的碎片重寫(xiě)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310383204.3 | 申請(qǐng)日: | 2013-08-28 |
| 公開(kāi)(公告)號(hào): | CN103473150A | 公開(kāi)(公告)日: | 2013-12-25 |
| 發(fā)明(設(shè)計(jì))人: | 劉景寧;馮丹;周鵬舉;許蔚;付忞 | 申請(qǐng)(專(zhuān)利權(quán))人: | 華中科技大學(xué) |
| 主分類(lèi)號(hào): | G06F11/14 | 分類(lèi)號(hào): | G06F11/14;G06F3/06 |
| 代理公司: | 華中科技大學(xué)專(zhuān)利中心 42201 | 代理人: | 朱仁玲 |
| 地址: | 430074 湖北*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 數(shù)據(jù) 系統(tǒng) 中的 碎片 重寫(xiě) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)信息存儲(chǔ)領(lǐng)域,具體涉及一種基于數(shù)據(jù)去重技術(shù)系統(tǒng)的碎片重寫(xiě)方法。
背景技術(shù)
數(shù)據(jù)去重技術(shù)(重復(fù)數(shù)據(jù)刪除技術(shù))作為一種能夠識(shí)別和消除冗余數(shù)據(jù)、只存儲(chǔ)單一副本數(shù)據(jù)的縮減技術(shù),在備份存儲(chǔ)系統(tǒng)、歸檔存儲(chǔ)系統(tǒng)、甚至文件系統(tǒng)中都具有廣泛應(yīng)用。例如,使用數(shù)據(jù)去重技術(shù)在備份存儲(chǔ)系統(tǒng)、歸檔存儲(chǔ)系統(tǒng)中可以消除80%~90%的冗余數(shù)據(jù),在虛擬機(jī)備份中可消除高達(dá)80%的冗余數(shù)據(jù),在文件系統(tǒng)中可以節(jié)省3/4的文件空間開(kāi)銷(xiāo)以及87%的備份鏡像開(kāi)銷(xiāo)。
然而,在基于數(shù)據(jù)去重的系統(tǒng)中,后續(xù)存儲(chǔ)的文件的數(shù)據(jù)塊共享之前存儲(chǔ)的文件的數(shù)據(jù)塊,從而數(shù)據(jù)塊被分散而非連續(xù)地存儲(chǔ)在磁盤(pán)上,形成大量的分散存儲(chǔ)碎片,對(duì)系統(tǒng)的讀性能造成重大影響。隨著存儲(chǔ)文件的數(shù)量的增加,后續(xù)文件的數(shù)據(jù)碎片化趨于嚴(yán)重,從而讀性能也逐漸下降。在讀數(shù)據(jù)時(shí),盡管增大讀緩存大小可以相對(duì)提高讀性能,但提高的程度有限,增大讀緩存大小不能從根本上解決問(wèn)題。比如在基于數(shù)據(jù)去重技術(shù)的備份系統(tǒng)中最后存儲(chǔ)的文件(版本)的數(shù)據(jù)讀(恢復(fù))性能比第一個(gè)文件(版本)降低了約10倍甚至更多,這將嚴(yán)重影響系統(tǒng)的可用性,尤其在災(zāi)難恢復(fù)的時(shí)候。由數(shù)據(jù)去重引起的數(shù)據(jù)碎片不像磁盤(pán)碎片可以通過(guò)后臺(tái)整理而重新保證數(shù)據(jù)的連續(xù)性。因數(shù)據(jù)塊之間存在共享,重新遷移數(shù)據(jù)塊將涉及到索引更新等更復(fù)雜的問(wèn)題,所以數(shù)據(jù)去重系統(tǒng)中的讀性能是一個(gè)急需解決的問(wèn)題。
現(xiàn)有一些碎片重寫(xiě)算法,通過(guò)在數(shù)據(jù)去重的過(guò)程中重寫(xiě)一定的數(shù)據(jù)碎片來(lái)解決數(shù)據(jù)的讀性能問(wèn)題。例如,CFL(Chunk?Fragmentation?Level)算法通過(guò)判定相鄰數(shù)據(jù)塊的大小之和與一個(gè)容器(Container:一個(gè)在內(nèi)存中的緩存,作為磁盤(pán)讀寫(xiě)的一種單位)的比值,如果小于一定的閥值則重寫(xiě);CBR(Context-based?rewriting)算法通過(guò)比較固定長(zhǎng)度的數(shù)據(jù)流內(nèi)容(比如5MB)與其對(duì)應(yīng)固定長(zhǎng)度的磁盤(pán)內(nèi)容的相似性,如果其比值小于一定的閥值則重寫(xiě),一般是重寫(xiě)碎片數(shù)據(jù)總量的5%。Capping是一個(gè)相對(duì)簡(jiǎn)單的策略,對(duì)每固定長(zhǎng)度的數(shù)據(jù)流選擇固定大小的Container個(gè)數(shù),對(duì)其中引用Container次數(shù)最少的數(shù)據(jù)塊進(jìn)行重寫(xiě)。
以上三種碎片重寫(xiě)算法都是通過(guò)重寫(xiě)數(shù)據(jù)碎片并犧牲一定的去重率來(lái)提高讀性能,但是它們共同的缺陷是:沒(méi)有考慮讀緩存對(duì)碎片的影響,重寫(xiě)已被預(yù)取到讀緩存的數(shù)據(jù)碎片會(huì)同時(shí)降低讀性能和去重率。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,提出一種優(yōu)化的碎片重寫(xiě)方法,其對(duì)判定出為碎片的數(shù)據(jù)塊進(jìn)行選擇性重寫(xiě),由此減少不必要的碎片數(shù)據(jù)的重寫(xiě),解決目前數(shù)據(jù)去重系統(tǒng)中存在的碎片大量重寫(xiě)而帶來(lái)的去重率降低與讀性能降低的技術(shù)問(wèn)題,相比與現(xiàn)有的碎片重寫(xiě)算法,具有更高的讀性能和去重率。
為實(shí)現(xiàn)本發(fā)明目的,按照本發(fā)明的一個(gè)方面,提供一種用于數(shù)據(jù)去重系統(tǒng)的碎片重寫(xiě)方法,其特征在于,在數(shù)據(jù)去重中增加一個(gè)緩存作為重寫(xiě)感知緩存,該重寫(xiě)感知緩存中的數(shù)據(jù)項(xiàng)為數(shù)據(jù)塊所引用的容器標(biāo)識(shí)(Container?ID),對(duì)判定為數(shù)據(jù)碎片的數(shù)據(jù)塊,如果其引用的容器標(biāo)識(shí)(Container?ID)已存儲(chǔ)在該重寫(xiě)感知緩存中,則此數(shù)據(jù)無(wú)需重寫(xiě),否則重寫(xiě)該數(shù)據(jù)碎片。
作為本發(fā)明的進(jìn)一步優(yōu)選,所述的重寫(xiě)感知緩存為與讀數(shù)據(jù)或恢復(fù)數(shù)據(jù)時(shí)同樣大小且采用相同緩存策略的緩存。其中,所述大小是指緩存項(xiàng)的數(shù)量,而不是內(nèi)存空間開(kāi)銷(xiāo)。
作為本發(fā)明的進(jìn)一步優(yōu)選,所述的重寫(xiě)感知緩存和讀(恢復(fù))數(shù)據(jù)緩存為L(zhǎng)RU替換策略的緩存。
作為本發(fā)明的進(jìn)一步優(yōu)選,該增加的緩存為模擬恢復(fù)緩存行為的緩存。
按照本發(fā)明的另一個(gè)方面,提供一種用于數(shù)據(jù)去重系統(tǒng)的碎片重寫(xiě)方法,通過(guò)增加一個(gè)用于存儲(chǔ)數(shù)據(jù)塊引用的容器標(biāo)識(shí)(Container?ID)的重寫(xiě)感知緩存,來(lái)實(shí)現(xiàn)高性能數(shù)據(jù)重寫(xiě),其特征在于,該方法包括如下步驟:
(1)對(duì)新來(lái)的數(shù)據(jù)塊進(jìn)行去重判斷,如果不是重復(fù)數(shù)據(jù),則存儲(chǔ)此數(shù)據(jù)塊,否則執(zhí)行步驟(2);
(2)判斷當(dāng)前數(shù)據(jù)塊是否為一個(gè)數(shù)據(jù)碎片,如果不是則不用重寫(xiě),否則執(zhí)行步驟(3);
(3)判斷當(dāng)前數(shù)據(jù)碎片是否應(yīng)當(dāng)重寫(xiě),即如果當(dāng)前數(shù)據(jù)碎片引用的容器標(biāo)識(shí)(Container?ID)存儲(chǔ)在該重寫(xiě)感知緩存中,則不用重寫(xiě),否則將當(dāng)前數(shù)據(jù)碎片作為新數(shù)據(jù)重寫(xiě)。
作為本發(fā)明的進(jìn)一步優(yōu)選,所述的重寫(xiě)感知緩存為與讀數(shù)據(jù)或恢復(fù)數(shù)據(jù)時(shí)同樣大小且相同緩存策略的緩存,大小是指緩存項(xiàng)的個(gè)數(shù)。
作為本發(fā)明的進(jìn)一步優(yōu)選,所述的重寫(xiě)感知緩存和讀數(shù)據(jù)或恢復(fù)數(shù)據(jù)緩存為L(zhǎng)RU緩存。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于華中科技大學(xué),未經(jīng)華中科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310383204.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F11-00 錯(cuò)誤檢測(cè);錯(cuò)誤校正;監(jiān)控
G06F11-07 .響應(yīng)錯(cuò)誤的產(chǎn)生,例如,容錯(cuò)
G06F11-22 .在準(zhǔn)備運(yùn)算或者在空閑時(shí)間期間內(nèi),通過(guò)測(cè)試作故障硬件的檢測(cè)或定位
G06F11-28 .借助于檢驗(yàn)標(biāo)準(zhǔn)程序或通過(guò)處理作錯(cuò)誤檢測(cè)、錯(cuò)誤校正或監(jiān)控
G06F11-30 .監(jiān)控
G06F11-36 .通過(guò)軟件的測(cè)試或調(diào)試防止錯(cuò)誤
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





