[發(fā)明專利]一種適用于海量存儲系統(tǒng)的重復數(shù)據(jù)刪除方法無效
| 申請?zhí)枺?/td> | 201210452830.9 | 申請日: | 2012-11-13 |
| 公開(公告)號: | CN102982122A | 公開(公告)日: | 2013-03-20 |
| 發(fā)明(設計)人: | 梁吉林 | 申請(專利權(quán))人: | 浪潮電子信息產(chǎn)業(yè)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F3/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 適用于 海量 存儲系統(tǒng) 重復 數(shù)據(jù) 刪除 方法 | ||
技術(shù)領域
本發(fā)明涉及計算機系統(tǒng)及海量存儲系統(tǒng),?具體地說是一種適用于海量存儲系統(tǒng)的重復數(shù)據(jù)刪除方法。
背景技術(shù)
由于磁盤技術(shù)近年來的快速發(fā)展,一些企業(yè)和用戶也傾向于使用大容量的磁盤來進行備份或者歸檔。傳統(tǒng)的備份策略往往會在存儲設備的磁盤空間里面產(chǎn)生大量的冗余數(shù)據(jù),消耗了大量不必要的磁盤空間,造成設備資源的浪費;而且因為太多的冗余數(shù)據(jù),造成磁盤搜索定位時間的延長,也降低了系統(tǒng)的整體性能。
重復數(shù)據(jù)刪除解決了這些問題,它將要備份的數(shù)據(jù)進行比對,如果有相同的數(shù)據(jù)則以一個連接或指向來替代,這樣不僅節(jié)約了數(shù)據(jù)存儲所需要的存儲空間,而且因為數(shù)據(jù)量的減少,也降低了磁盤的定位時間。它不僅有效的控制了數(shù)據(jù)的急劇增長,也增加了有效存儲空間,提高了存儲效率,節(jié)省了存儲的總成本和管理成本,同時也節(jié)省了數(shù)據(jù)傳輸?shù)木W(wǎng)絡帶寬,節(jié)省了空間、電力供應等運維成本。
但是使用重復數(shù)據(jù)刪除技術(shù)也有缺點,它需要比對,所以增加了計算以及校驗的時間;它需要存儲Hash索引,而內(nèi)存與磁盤速率的嚴重失衡就會增加檢驗的耗時;數(shù)據(jù)分塊技術(shù)的分塊大小,對系統(tǒng)中重復數(shù)據(jù)的刪除精確性也存在影響。
本方法針對現(xiàn)存方法的缺陷進行了改進,具有更快的校驗速度、更小的數(shù)據(jù)塊粒度以及更精確的重復數(shù)據(jù)去除。在重復數(shù)據(jù)刪除的兩個衡量標準重復數(shù)據(jù)刪除率和性能上,都有不同程度的提高。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種適用于海量存儲系統(tǒng)的重復數(shù)據(jù)刪除方法。
本發(fā)明的目的是按以下方式實現(xiàn)的,使用4KB-8KB的塊大小對數(shù)據(jù)流進行分塊,這樣極小的塊就能夠確保極高的重復數(shù)據(jù)刪除率,能夠較精確的進行重復數(shù)據(jù)的定位刪除;而針對HDD磁盤與內(nèi)存RAM之間數(shù)據(jù)傳輸率的差異而導致的性能影響,通過使用SSD重新構(gòu)建存儲的架構(gòu),作為RAM與RAID陣列之間的中轉(zhuǎn),這樣不僅能夠提高檢索的速率,而且也提高了數(shù)據(jù)的存儲速率,在新的數(shù)據(jù)塊Hash值到來需要進行驗證的時候,RAM讀取存儲在SSD中的Hash索引,以SSD比HDD高出3倍的實際數(shù)據(jù)傳輸速率,便得系統(tǒng)的性能得到保證,使用4KB-8KB的小塊所產(chǎn)生的相對較大的Hash索引表所引起的性能問題也能夠得到解決,針對重復數(shù)據(jù)刪除比以及重復數(shù)據(jù)刪除精確度低的問題,使用Hash值和數(shù)據(jù)指紋的雙重校驗,以確保最大程度上的重復數(shù)據(jù)刪除精確度,因為使用SSD作為中間點,保障了I/O速率,因此在雙重驗證的情況下,也不會影響系統(tǒng)的性能,具體步驟如下:
1)接收到所要進行存儲的數(shù)據(jù)流;
2)傳送至Dedupe?System模塊;
3)數(shù)據(jù)流按照指定的4KB-8KB大小的塊進行截斷分解;
4)計算數(shù)據(jù)塊的Hash值;
5)計算數(shù)據(jù)塊的數(shù)據(jù)指紋;
6)讀取SSD中存儲的Hash索引表;
7)判別Hash值與Hash索引表中是否重復;
A.重復,(1)讀取數(shù)據(jù)指紋索引表,繼續(xù)判定數(shù)據(jù)指紋;(2)數(shù)據(jù)指紋重復,建立數(shù)據(jù)連接,數(shù)據(jù)塊不進行存儲;(3)數(shù)據(jù)指紋不重復,存儲數(shù)據(jù)塊到SSD,存儲數(shù)據(jù)塊Hash值至SSD中的Hash索引表,存儲數(shù)據(jù)塊的數(shù)據(jù)指紋至SSD中的數(shù)據(jù)指紋索引表;
B.不重復,(1)存儲數(shù)據(jù)塊至SSD,存儲數(shù)據(jù)塊Hash值至SSD中的Hash索引表,存儲數(shù)據(jù)塊的數(shù)據(jù)指紋至SSD中的數(shù)據(jù)指紋索引表;(2)將存儲于SSD中的數(shù)據(jù)塊傳送到RAID陣列磁盤中進行存儲。
本發(fā)明的有益效果是:采用4KB-8KB的小塊來截分數(shù)據(jù)流,采用Hash值和數(shù)據(jù)指紋的雙重驗證來確保重復數(shù)據(jù)的刪除率,采用SSD存儲Hash索引來提高檢索效率,重復數(shù)據(jù)刪除適用于高重復數(shù)據(jù),例如較低的數(shù)據(jù)變化率,完全的數(shù)據(jù)備份,數(shù)據(jù)長期保存以及非活動數(shù)據(jù),在這些應用環(huán)境下能夠達到最高的效率,即最高的重復數(shù)據(jù)刪除率,也可以理解為磁盤空間釋放比,傳統(tǒng)的固定重復數(shù)據(jù)刪除技術(shù),分塊數(shù)據(jù)流一般是采用64KB-128KB的塊大小,因為內(nèi)存RAM和HDD磁盤間速率的差異性,這樣做就不會因為塊太小而影響性能,但卻會因為塊過大而影響重復數(shù)據(jù)的刪除比。
附圖說明
圖1?是系統(tǒng)架構(gòu)示意圖;
圖2?是重復數(shù)據(jù)刪除原理圖;
圖3?是重復數(shù)據(jù)刪除流程圖。
具體實施方式
?參照說明書附圖對本發(fā)明的方法作以下詳細地說明。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮電子信息產(chǎn)業(yè)股份有限公司,未經(jīng)浪潮電子信息產(chǎn)業(yè)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210452830.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:耐候鋼板材的焊接方法
- 下一篇:定子長銷孔拉床
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實現(xiàn)海量數(shù)據(jù)準實時全量統(tǒng)計的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點數(shù)據(jù)聚合渲染方法、裝置、設備及存儲介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲方法
- 用于處理到遠程存儲位置的故障恢復的方法、系統(tǒng)以及程序
- 包括向外擴展型存儲系統(tǒng)的存儲系統(tǒng)群及其管理方法
- 一種移動存儲系統(tǒng)及其存儲方法
- 存儲系統(tǒng)的數(shù)據(jù)備份與恢復系統(tǒng)、方法、設備及存儲介質(zhì)
- 在線遷移異構(gòu)系統(tǒng)數(shù)據(jù)的方法、裝置、設備和存儲介質(zhì)
- 建立存儲系統(tǒng)伙伴關系的方法及裝置
- 數(shù)據(jù)處理系統(tǒng)及其操作方法
- 一種容災平臺及一種容災方法
- 在基于云的存儲系統(tǒng)中服務I/O操作
- 一種數(shù)據(jù)修復方法及裝置





