[發明專利]一種面向備份任務的重復數據刪除方法有效
| 申請號: | 201610110134.8 | 申請日: | 2016-02-29 |
| 公開(公告)號: | CN105786651B | 公開(公告)日: | 2018-12-04 |
| 發明(設計)人: | 吳文峻 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 趙文利 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 備份 任務 重復 數據 刪除 方法 | ||
本發明公開了一種面向備份任務的重復數據刪除方法,首先,劃分備份任務;將硬盤上完成了全部查重過程的指紋倉庫放入集合B?bucket;然后,在內存中建立局部緩存和全局緩存;將B?bucket中的元素放入全局緩存;將當前備份任務的所有指紋依次放入指紋倉庫C?bucket;當C?bucket處于滿態后更新,遍歷并記錄更新后的最大指紋與最小指紋;然后,在B?bucket中尋找具有這兩個指紋的指紋倉庫,并加入局部緩存;對更新后的每一個指紋在局部緩存和全局緩存中進行查詢并標記后,將未被標記的指紋保存到指紋倉庫N?bucket中;標記的指紋進行刪除;最后,當N?bucket滿態后替換并加入局部緩存,并更新全局緩存。優點在于:解決了指紋查詢瓶頸問題;縮小查重范圍,提高重刪效率;保持較高的吞吐率。
技術領域
本發明屬于數據備份存儲領域,描述了一種面向備份任務的重復數據刪除方法。
背景技術
隨著數據中心的能源消耗問題越來越受到IT產業的廣泛關注,如何節約數據中心的能源消耗逐漸成為了研究人員們重點討論的一項議題。而數據備份是數據中心的存儲系統的主要應用之一;因此,應用合理的備份策略,降低存儲系統能耗,是實現減少數據中心整體電能消耗的重要途徑。
據統計,數據中心消耗的能源占全世界能耗的1.5%,而其中40%的能源來自數據中心的存儲系統。研究人員和管理人員通常采用兩種方式降低存儲系統的能耗,一是從硬件開發上入手,提高存儲系統本身的能耗效率,以更少的能源開銷承擔更多的存儲負載;二是從負載均衡和節能調度出發,合理的安排存儲系統的正常工作時間,使得更多設備獲得更多的低功耗運行機會,在完成同樣任務的情況下,降低整體能耗。
從應用角度分析,由于企業數據量的迅猛增長和數據傳輸率要求的不斷提高,數據中心的海量存儲空間和高帶寬網絡傳輸需求成為當前網絡存儲領域面臨的嚴峻挑戰。備份和歸檔系統急需有效地措施,提升存儲的效率和系統的可擴展性以滿足備份對容量和性能需求的高速增長。通過研究發現,在備份和歸檔存儲系統中,高達80%~90%的數據是冗余的。利用這些應用數據高度冗余的特性,研究者們在已有存儲技術的基礎上提出了重復數據刪除技術。它能夠極大地降低網絡存儲系統的存儲空間開銷,同時節省網絡帶寬,并進一步降低數據中心的能耗和管理成本。
重復數據刪除是基于數據自身的冗余度來檢測數據流中的相同數據對象,只傳輸和存儲唯一的數據對象副本,并使用指向唯一數據對象副本的指針替換其他重復副本。相比于傳統的數據壓縮技術,重復數據刪除技術不僅可以消除文件內的數據冗余,還能消除共享數據集內文件之間的數據冗余。
近一段時間,重復數據刪除已經成為一種引人注目的無損壓縮技術,能夠識別并消除存儲過程中的重復數據,被應用到多種存儲系統用于節省空間和網絡帶寬。當備份任務的數據經過重復數據刪除時,需要的存儲空間能夠減少10到20倍,甚至更多。但是,重復數據刪除并非在任何情況下都能取得理想的效果。在重刪數據過程中,當數據總量超過一定規模,達到TB級甚至更高時,指紋查詢瓶頸就會逐漸顯現出來,因為這種重復數據刪除技術需要一個完整的數據塊指紋索引,能夠映射到每個存儲在介質上的數據塊。然而,對于一般的磁盤之間備份任務的規模(10~100TB),將包含全部數據塊指紋的索引放入內存是不切合實際的,而對于磁盤上索引的每一次查詢的時間開銷由相對較高,限制重刪的整體吞吐率。
研究表明,重復數據刪除的重刪效果與進行重刪的數據類型和數據內容有密切關系。而在關于重刪技術的各項研究之中,缺少在能耗方向上的研究。塊級別甚至更細粒度的重復數據刪除過程的執行,對服務器的系統資源要求很高,時間開銷也很大。這兩項開銷在重刪效果較差時尤為明顯,并直接導致能耗增加。所以,合理的安排重刪過程的執行對存儲系統的節能有重要的意義。
發明內容
本發明為了降低備份過程的總體能耗,通過控制重復數據刪除過程的執行,針對不同備份任務進行重刪,設計了基于雙緩存機制的指紋查詢算法;具體是一種面向備份任務的重復數據刪除方法。
具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610110134.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種MCU的校準方法和系統
- 下一篇:數據的管理方法及裝置





