[發(fā)明專(zhuān)利]一種適應(yīng)大數(shù)據(jù)應(yīng)用的快速重復(fù)數(shù)據(jù)刪除方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310228696.9 | 申請(qǐng)日: | 2013-06-08 |
| 公開(kāi)(公告)號(hào): | CN103324699A | 公開(kāi)(公告)日: | 2013-09-25 |
| 發(fā)明(設(shè)計(jì))人: | 張興軍;朱國(guó)峰;董小社;朱躍光;王龍翔;姜曉夏 | 申請(qǐng)(專(zhuān)利權(quán))人: | 西安交通大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06F11/14 |
| 代理公司: | 西安通大專(zhuān)利代理有限責(zé)任公司 61200 | 代理人: | 蔡和平 |
| 地址: | 710049 *** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 適應(yīng) 數(shù)據(jù) 應(yīng)用 快速 重復(fù) 刪除 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)信息存儲(chǔ)技術(shù)領(lǐng)域,特別涉及一種適應(yīng)大數(shù)據(jù)應(yīng)用的快速重復(fù)數(shù)據(jù)刪除方法。
背景技術(shù)
信息時(shí)代,隨著數(shù)據(jù)的裂變式增長(zhǎng),導(dǎo)致大數(shù)據(jù)時(shí)代來(lái)臨。所謂大數(shù)據(jù),即滿足以下特點(diǎn):數(shù)據(jù)體量巨大、類(lèi)型繁多、價(jià)值密度低和產(chǎn)生速度快等。大數(shù)據(jù)時(shí)代,在數(shù)據(jù)的備份和存儲(chǔ)過(guò)程中存在著大量冗余數(shù)據(jù),如何消除備份過(guò)程中的重復(fù)數(shù)據(jù)以減少存儲(chǔ)空間和網(wǎng)絡(luò)帶寬消耗已經(jīng)成為存儲(chǔ)領(lǐng)域一個(gè)熱門(mén)研究課題。
消除備份過(guò)程中的冗余數(shù)據(jù)最有效的方式是采用重復(fù)數(shù)據(jù)刪除技術(shù)。一般認(rèn)為,重復(fù)數(shù)據(jù)刪除技術(shù)包括面向文件級(jí)別的全文件去重技術(shù)和面向塊級(jí)別的固定長(zhǎng)度分塊技術(shù)及變長(zhǎng)分塊去重技術(shù)。全文件去重技術(shù)通過(guò)比較文件的元數(shù)據(jù)信息,對(duì)整個(gè)文件進(jìn)行去重檢測(cè),僅存儲(chǔ)多個(gè)相同文件中的一個(gè)副本,冗余文件通過(guò)指針映射到該副本文件。其僅能識(shí)別文件之間的冗余數(shù)據(jù),去重速率快但去重率低,較適用于E-mail系統(tǒng)、文件系統(tǒng)等存在大量相同文件的應(yīng)用環(huán)境中。固定長(zhǎng)度分塊去重技術(shù)通告一個(gè)固定長(zhǎng)度對(duì)文件流進(jìn)行分塊,計(jì)算分塊后的hash值,然后通過(guò)查找hash表對(duì)hash值進(jìn)行去重檢測(cè),存儲(chǔ)節(jié)點(diǎn)僅存儲(chǔ)hash值不存在的數(shù)據(jù)塊。其可同時(shí)識(shí)別文件內(nèi)部和文件之間的冗余數(shù)據(jù),但對(duì)數(shù)據(jù)修改敏感,即數(shù)據(jù)一經(jīng)修改便無(wú)法有效檢測(cè)出冗余信息,去重速率快但去重率仍偏低。變長(zhǎng)分塊技術(shù)主要是指一種基于內(nèi)容識(shí)別的分塊技術(shù),它由一個(gè)固定大小窗口按字節(jié)在文件流上滑動(dòng),每滑動(dòng)一個(gè)字節(jié)計(jì)算一次該窗口內(nèi)數(shù)據(jù)的弱hash值,同時(shí)判斷該弱hash值是否滿足預(yù)先設(shè)定的條件,若滿足,則記錄該偏移位置,并且設(shè)其為一個(gè)邊界點(diǎn);否則,繼續(xù)滑動(dòng)窗口。直到找到兩個(gè)邊界點(diǎn),取兩個(gè)邊界點(diǎn)之間的數(shù)據(jù)形成一個(gè)數(shù)據(jù)塊,計(jì)算該數(shù)據(jù)塊的強(qiáng)hash值,然后對(duì)該強(qiáng)hash值進(jìn)行去重檢測(cè),僅存儲(chǔ)該hash值不存在的數(shù)據(jù)塊且更新hash表。其針對(duì)易修改數(shù)據(jù),能夠有效檢測(cè)出冗余數(shù)據(jù),但由于窗口滑動(dòng)過(guò)程中頻繁計(jì)算指紋值,去重速率低,不適宜大數(shù)據(jù)應(yīng)用環(huán)境。
綜上所述,上述去重方法均有自己的局限性,單一的去重方法不能有效適應(yīng)復(fù)雜多變的應(yīng)用環(huán)境。
發(fā)明內(nèi)容
本發(fā)明針對(duì)復(fù)雜多變的備份應(yīng)用環(huán)境,提出了一種適應(yīng)大數(shù)據(jù)應(yīng)用的快速重復(fù)數(shù)據(jù)刪除方法,通過(guò)調(diào)節(jié)去重因子和加速因子,可以快速消除文件內(nèi)部和文件之間的冗余數(shù)據(jù),從而降低了備份去重系統(tǒng)的備份窗口和存儲(chǔ)開(kāi)銷(xiāo)。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種適應(yīng)大數(shù)據(jù)應(yīng)用的快速重復(fù)數(shù)據(jù)刪除方法,包括以下步驟:
(1)用戶定制備份任務(wù),形成備份文件流;
(2)通過(guò)一個(gè)固定長(zhǎng)度窗口在備份文件流上按字節(jié)進(jìn)行滑動(dòng),每滑動(dòng)一個(gè)字節(jié)就采用RabinHash函數(shù)計(jì)算一次窗口內(nèi)數(shù)據(jù)指紋值,記為rhashvalue;
(3)判斷步驟(2)所計(jì)算的指紋值是否滿足邊界點(diǎn)條件:rhashvalue%D=r;其中,D為除數(shù),其值隨機(jī)確定;r為模數(shù),取值為D-1;若不滿足,則轉(zhuǎn)入步驟(2)繼續(xù)進(jìn)行滑動(dòng)窗口;若滿足,則轉(zhuǎn)入步驟(4);
(4)以步驟(3)找到的滿足邊界點(diǎn)條件的窗口位置為界對(duì)備份文件流進(jìn)行劃分,形成CDC變長(zhǎng)塊,同時(shí)記錄變長(zhǎng)塊個(gè)數(shù)以及當(dāng)前邊界點(diǎn)位置,同時(shí)進(jìn)入步驟(5)和(8);
(5)判斷備份文件流是否劃分結(jié)束,若結(jié)束,則整個(gè)分塊過(guò)程結(jié)束;若未結(jié)束,則進(jìn)入步驟(6);
(6)判斷CDC變長(zhǎng)塊個(gè)數(shù)是否等于去重因子,若不相等,則轉(zhuǎn)入步驟(2)繼續(xù)滑動(dòng)窗口;若相等,則進(jìn)入步驟(7);
(7)清零CDC變長(zhǎng)塊個(gè)數(shù),即重新開(kāi)始計(jì)數(shù),并且從上一個(gè)劃分的塊的邊界點(diǎn)位置開(kāi)始按加速因子進(jìn)行固定長(zhǎng)度分塊,同時(shí)進(jìn)入步驟(5)和步驟(8);
(8)計(jì)算CDC變長(zhǎng)塊或定長(zhǎng)塊hash值,并進(jìn)入步驟(9)去重檢測(cè)過(guò)程;
(9)檢索hash表,查詢hash值是否存在,若存在,則更新hash表對(duì)應(yīng)hash值引用次數(shù);若不存在,則存儲(chǔ)hash值及相應(yīng)數(shù)據(jù)塊內(nèi)容。
本發(fā)明進(jìn)一步的改進(jìn)在于:步驟(2)中所述固定長(zhǎng)度窗口的長(zhǎng)度為48bytes或50bytes。
本發(fā)明進(jìn)一步的改進(jìn)在于:步驟(6)中所述去重因子為1、2、3或4。
本發(fā)明進(jìn)一步的改進(jìn)在于:步驟(7)中所述加速因子為4KB、8KB、16KB、32KB、64KB或128KB。
本發(fā)明一種適應(yīng)大數(shù)據(jù)應(yīng)用的快速重復(fù)數(shù)據(jù)刪除方法中分塊具體為:
(1)在定制備份任務(wù)過(guò)程中,用戶根據(jù)其當(dāng)前應(yīng)用環(huán)境設(shè)置不同的去重因子和加速因子(去重因子范圍為1~4,與去重率成正比;加速因子范圍為8KB~128KB,與備份窗口成反比);
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310228696.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 適應(yīng)速度和適應(yīng)病人的假膝
- 帶寬適應(yīng)
- 自適應(yīng)均衡電路和自適應(yīng)均衡方法
- 適應(yīng)均衡裝置和適應(yīng)均衡方法
- 標(biāo)準(zhǔn)模式適應(yīng)裝置、標(biāo)準(zhǔn)模式適應(yīng)方法和標(biāo)準(zhǔn)模式適應(yīng)程序
- 攝像模組自適應(yīng)系統(tǒng)及其自適應(yīng)方法
- 彎頭自適應(yīng)耳塞及自適應(yīng)耳機(jī)
- 算法自適應(yīng)裝置和算法自適應(yīng)方法
- 域適應(yīng)
- 自適應(yīng)辨識(shí)系統(tǒng)、自適應(yīng)辨識(shí)裝置及自適應(yīng)辨識(shí)方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 在線應(yīng)用平臺(tái)上應(yīng)用間通信的回調(diào)應(yīng)答方法、應(yīng)用及在線應(yīng)用平臺(tái)
- 應(yīng)用使用方法、應(yīng)用使用裝置及相應(yīng)的應(yīng)用終端
- 應(yīng)用管理設(shè)備、應(yīng)用管理系統(tǒng)、以及應(yīng)用管理方法
- 能力應(yīng)用系統(tǒng)及其能力應(yīng)用方法
- 應(yīng)用市場(chǎng)的應(yīng)用搜索方法、系統(tǒng)及應(yīng)用市場(chǎng)
- 使用應(yīng)用的方法和應(yīng)用平臺(tái)
- 應(yīng)用安裝方法和應(yīng)用安裝系統(tǒng)
- 使用遠(yuǎn)程應(yīng)用進(jìn)行應(yīng)用安裝
- 應(yīng)用檢測(cè)方法及應(yīng)用檢測(cè)裝置
- 應(yīng)用調(diào)用方法、應(yīng)用發(fā)布方法及應(yīng)用發(fā)布系統(tǒng)





