[發(fā)明專利]一種實(shí)現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的方法和系統(tǒng)無效
| 申請?zhí)枺?/td> | 200910136595.2 | 申請日: | 2009-05-08 |
| 公開(公告)號: | CN101882141A | 公開(公告)日: | 2010-11-10 |
| 發(fā)明(設(shè)計(jì))人: | 張慶敏;胡剛;謝海威;郭棟 | 申請(專利權(quán))人: | 北京眾志和達(dá)信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F11/14 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100089 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 實(shí)現(xiàn) 重復(fù) 數(shù)據(jù) 刪除 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)存儲技術(shù)領(lǐng),尤其涉及一種實(shí)現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的方法和系統(tǒng)。
背景技術(shù)
企業(yè)的關(guān)鍵業(yè)務(wù)數(shù)據(jù)每天都會做數(shù)據(jù)備份。按根據(jù)備份策略的定制,可以每天做增量備份,每周做全備份。大但隨著大量數(shù)據(jù)的累計(jì),大量數(shù)據(jù)是重復(fù)的,而重復(fù)數(shù)據(jù)又導(dǎo)致了數(shù)據(jù)量以幾何級數(shù)增長。舉例老說,某個(gè)ERP系統(tǒng)初始數(shù)據(jù)量為100TB,每天增加10TB,一周6天做增量備份,周末做全備份,一周備份數(shù)據(jù)就達(dá)到160TB。但使用重復(fù)數(shù)據(jù)刪除技術(shù)(Data?Deduplication),100TB的初始數(shù)據(jù)不用重復(fù)做備份,進(jìn)一步發(fā)現(xiàn)每天10TB增量數(shù)據(jù),可以壓縮到1TB,因此每周7天備份只增加7TB,數(shù)據(jù)量比傳統(tǒng)備份大大減少。
由于數(shù)據(jù)的爆炸式增長每天都困擾著企業(yè)級企業(yè),在解決這個(gè)問題上,重復(fù)數(shù)據(jù)刪除是一項(xiàng)最具前景的技術(shù)。國內(nèi)外存儲廠商都在努力開發(fā)基于重復(fù)數(shù)據(jù)刪除技術(shù)的產(chǎn)品。總結(jié)目前國外廠商實(shí)現(xiàn)重復(fù)數(shù)據(jù)刪除的方法,主要有三種,第一種是基于散列的方法,比如Data?Domain、飛康、昆騰的DXi系列設(shè)備都是采用SHA-1,MD-5等類似的算法將這些進(jìn)行備份的數(shù)據(jù)流斷成塊并且為每個(gè)數(shù)據(jù)塊生成一個(gè)散列(hash)。如果新數(shù)據(jù)塊的散列(hash)與備份設(shè)備上散列索引中的一個(gè)散列匹配,表明該數(shù)據(jù)已經(jīng)被備份,設(shè)備只更新它的表,以說明在這個(gè)新位置上也存在該數(shù)據(jù)。該方法存在內(nèi)置的可擴(kuò)展性的問題。第二種方法是基于內(nèi)容識別的重復(fù)刪除,這種方法主要是識別記錄的數(shù)據(jù)格式。它采用內(nèi)嵌在備份數(shù)據(jù)中的文件系統(tǒng)的元數(shù)據(jù)識別文件;然后與其數(shù)據(jù)存儲庫中的其它版本進(jìn)行逐字節(jié)地比較,找到該版本與第一個(gè)已存儲的版本的不同之處并為這些不同的數(shù)據(jù)創(chuàng)建一個(gè)增量文件。該方法的缺點(diǎn)是需要使用支持的備份應(yīng)用設(shè)備以便設(shè)備可以提取元數(shù)據(jù)。第三種方法是Diligent?Technologies用于其ProtecTier?VTL的技術(shù),它像基于散列(hash)的產(chǎn)品那樣將數(shù)據(jù)分成塊,并且采用自有的算法決定給定的數(shù)據(jù)塊是否與其它的相似。然后與相似塊中的數(shù)據(jù)進(jìn)行逐字節(jié)的比較,以判斷該數(shù)據(jù)塊是否已經(jīng)被備份。國外各大存儲廠商只所以采用不同的方法,主要目的是結(jié)合廠商自己生產(chǎn)的硬件存儲設(shè)備。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種實(shí)現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的方法,實(shí)現(xiàn)重復(fù)數(shù)據(jù)刪除就要找到相同數(shù)據(jù),然后建立高速的索引,用索引代替相同的數(shù)據(jù),本發(fā)明與現(xiàn)有技術(shù)不同之處在于,它基于相似度算法理論,利用二進(jìn)制數(shù)據(jù)對比保證數(shù)據(jù)一致性。主要步驟包括:
通過simhash(相似性哈希)算法計(jì)算數(shù)據(jù)的相似度;
通過相似度定位存儲位置,把相似度計(jì)入索引庫;
把數(shù)據(jù)寫入數(shù)據(jù)倉庫。如果有相同的相似度的數(shù)據(jù)進(jìn)來的話,把數(shù)據(jù)倉庫中對應(yīng)的數(shù)據(jù)提取出來,然后進(jìn)行二進(jìn)制比對;
如果相同則記錄索引,如果不同則記錄不同的數(shù)據(jù)部分。
所述方法按照一定的格式記錄數(shù)據(jù)結(jié)構(gòu),通過數(shù)據(jù)指紋加數(shù)據(jù)對比的方式實(shí)現(xiàn)數(shù)據(jù)的準(zhǔn)確性和一致性。
本發(fā)明還提供了一種一種實(shí)現(xiàn)重復(fù)數(shù)據(jù)數(shù)據(jù)刪除的系統(tǒng),包括:相似度標(biāo)示庫(BitMap)、數(shù)據(jù)偏移的標(biāo)示庫和數(shù)據(jù)倉庫(LBAMap),記錄原始數(shù)據(jù)的存儲庫(Resp)。其中:
相似度標(biāo)示庫,用來標(biāo)示相似度的值是否存在,所有的相似度的值都可以在bitmap中找到一個(gè)固定的標(biāo)示位,如果該標(biāo)示位為1,則表示有同樣相似度的數(shù)據(jù)出現(xiàn)過,可以進(jìn)行數(shù)據(jù)縮減。BitMap中的數(shù)據(jù)標(biāo)示,通過二維座標(biāo)定位,可以快速的進(jìn)行相似度定位驗(yàn)證.
數(shù)據(jù)偏移的標(biāo)示庫,用來表示數(shù)據(jù)在倉庫(resp)中的偏移,LBAMap中記錄的LBA和BitMap中標(biāo)示位相對應(yīng),與BitMap相同,LBAMap中的相似度數(shù)據(jù)偏移定位也是通過二維坐標(biāo)定位,可以迅速的找到相似度對應(yīng)的數(shù)據(jù)偏移。
數(shù)據(jù)倉庫,記錄原始數(shù)據(jù)的存儲庫,其地址偏移在LBAMap中記錄。Resp中的數(shù)據(jù)按照數(shù)據(jù)源特征,順序?qū)懭耄@樣在讀取的時(shí)可以保證數(shù)據(jù)順序讀取,保證了系統(tǒng)的性能。
本發(fā)明基于相似性哈希算法理論,通過數(shù)據(jù)對比保證數(shù)據(jù)一致性,即高效的完成了重復(fù)數(shù)據(jù)刪除,又保證了數(shù)據(jù)的一致性。
附圖說明
圖1是本發(fā)明相似度計(jì)算流程圖;
圖2是本發(fā)明相似度內(nèi)存比對流程圖;
圖3是本發(fā)明數(shù)據(jù)寫入示意圖;
圖4是本發(fā)明數(shù)據(jù)對比示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說明。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京眾志和達(dá)信息技術(shù)有限公司,未經(jīng)北京眾志和達(dá)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910136595.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 互動業(yè)務(wù)終端、實(shí)現(xiàn)系統(tǒng)及實(shí)現(xiàn)方法
- 街景地圖的實(shí)現(xiàn)方法和實(shí)現(xiàn)系統(tǒng)
- 游戲?qū)崿F(xiàn)系統(tǒng)和游戲?qū)崿F(xiàn)方法
- 圖像實(shí)現(xiàn)裝置及其圖像實(shí)現(xiàn)方法
- 增強(qiáng)現(xiàn)實(shí)的實(shí)現(xiàn)方法以及實(shí)現(xiàn)裝置
- 軟件架構(gòu)的實(shí)現(xiàn)方法和實(shí)現(xiàn)平臺
- 數(shù)值預(yù)報(bào)的實(shí)現(xiàn)方法及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其冬眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其睡眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 輸入設(shè)備實(shí)現(xiàn)方法及其實(shí)現(xiàn)裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





