[發(fā)明專利]針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法有效
| 申請?zhí)枺?/td> | 201510848801.8 | 申請日: | 2015-11-27 |
| 公開(公告)號: | CN105487818B | 公開(公告)日: | 2018-11-09 |
| 發(fā)明(設(shè)計)人: | 張廣艷;楊松霖;舒繼武;鄭緯民 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 100084 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 冗余數(shù)據(jù) 數(shù)據(jù)服務(wù)器 去重 云存儲系統(tǒng) 數(shù)據(jù)路由 元數(shù)據(jù)服務(wù)器 特征指紋 客戶端 集群 重復(fù) 負(fù)載均衡策略 數(shù)據(jù)管理 磁盤使用率 高效快速 接收用戶 路由策略 路由節(jié)點 匹配確定 系統(tǒng)特性 相似指紋 選擇請求 上傳 客戶 | ||
本發(fā)明提出一種針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,包括以下步驟:多個客戶端接收用戶的上傳數(shù)據(jù),以數(shù)據(jù)超塊作為數(shù)據(jù)路由單位,并提取其中的路由特征指紋,用于數(shù)據(jù)路由選擇;元數(shù)據(jù)服務(wù)器與數(shù)據(jù)服務(wù)器集群根據(jù)路由策略來處理客戶端的數(shù)據(jù)路由選擇請求,其中,數(shù)據(jù)服務(wù)器集群對路由特征指紋進行相似指紋匹配確定相似路由節(jié)點,元數(shù)據(jù)服務(wù)器根據(jù)負(fù)載均衡策略確定最終的數(shù)據(jù)路由地址;客戶端與相應(yīng)的數(shù)據(jù)服務(wù)器交互,接收到相似冗余數(shù)據(jù)的數(shù)據(jù)服務(wù)器對冗余數(shù)據(jù)進行高效快速去重。本發(fā)明的方法能夠使云存儲系統(tǒng)在保持高性能、大規(guī)模、高吞吐的系統(tǒng)特性的同時,達到高效的重復(fù)冗余數(shù)據(jù)去重效果,提升磁盤使用率,降低數(shù)據(jù)管理成本。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機信息存儲技術(shù)領(lǐng)域,特別涉及一種針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重復(fù)方法。
背景技術(shù)
重復(fù)數(shù)據(jù)刪除技術(shù)是一種粗粒度的無損的冗余數(shù)據(jù)去除的特殊數(shù)據(jù)壓縮技術(shù)。重復(fù)數(shù)據(jù)刪除技術(shù)通過對數(shù)據(jù)進行粗粒度的劃分,然后通過指紋計算技術(shù)提取數(shù)據(jù)塊的Hash指紋,通過指紋的索引查詢來判斷數(shù)據(jù)是否冗余,如果新數(shù)據(jù)塊與存儲系統(tǒng)中已有數(shù)據(jù)內(nèi)容相同,則不會對新數(shù)據(jù)進行存儲,而是通過保存指向原有數(shù)據(jù)塊的指針,確定數(shù)據(jù)的存儲位置,對于指針存儲的開銷遠(yuǎn)遠(yuǎn)小于對數(shù)據(jù)的占用空間。因此,重復(fù)數(shù)據(jù)刪除技術(shù)可以有效的提升存儲系統(tǒng)的空間使用率,節(jié)省磁盤存儲容量。
云存儲環(huán)境中實現(xiàn)重復(fù)數(shù)據(jù)刪除技術(shù)是指在云存儲架構(gòu)中加入重刪功能,提升存儲空間利用率,降低存儲成本。在大規(guī)模集群中,實現(xiàn)海量數(shù)據(jù)的存儲,基于塊級別的在線重復(fù)數(shù)據(jù)刪除技術(shù)在數(shù)據(jù)去重率以及存儲管理開銷上具有很大的優(yōu)勢,受到學(xué)術(shù)界以及工業(yè)界的廣泛認(rèn)可與應(yīng)用。但是在大規(guī)模存儲系統(tǒng)中,也存在兩大挑戰(zhàn),一是數(shù)據(jù)塊索引查詢磁盤瓶頸,二是大規(guī)模數(shù)據(jù)路由問題。
在重復(fù)數(shù)據(jù)刪除過程中,對數(shù)據(jù)塊的去重是基于指紋的查找與匹配來判定的。因此索引查詢優(yōu)化是提高重刪系統(tǒng)I/O性能,解決磁盤查找瓶頸的關(guān)鍵因素。目前針對于數(shù)據(jù)塊索引優(yōu)化的策略主要有三類:一是基于數(shù)據(jù)局部性的優(yōu)化策略;二是基于相似性理論的優(yōu)化策略;三是基于SSD的索引優(yōu)化策略。在集群存儲系統(tǒng)中,數(shù)據(jù)的存儲位置是衡量一個存儲系統(tǒng)的重要指標(biāo),因為這不僅涉及到各節(jié)點存儲的負(fù)載均衡性,也會對上層應(yīng)用造成一定的影響。而在集群重復(fù)數(shù)據(jù)刪除過程中,出于對系統(tǒng)整體性能開銷的考慮,跨節(jié)點的全局去重會嚴(yán)重降低系統(tǒng)存儲性能,所以一般都是采用只對節(jié)點內(nèi)部數(shù)據(jù)進行數(shù)據(jù)去重。所以基于集群重復(fù)數(shù)據(jù)刪除技術(shù)的集群重刪系統(tǒng)在數(shù)據(jù)路由問題上,將會對系統(tǒng)整體去重效果產(chǎn)生很大影響。
發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決上述相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的目的在于提出一種針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,該方法能夠快速地在云存儲系統(tǒng)中去除冗余數(shù)據(jù),提升存儲磁盤利用率,保證系統(tǒng)的吞吐性能,從而降低存儲成本。
為了實現(xiàn)上述目的,本發(fā)明的實施例提出了一種針對云存儲系統(tǒng)中重復(fù)冗余數(shù)據(jù)的高效去重方法,所述云存儲系統(tǒng)包括多個數(shù)據(jù)存儲服務(wù)器和多個客戶端,其中,所述多個數(shù)據(jù)存儲服務(wù)器組成的集群包括由多個數(shù)據(jù)服務(wù)器組成的數(shù)據(jù)服務(wù)器集群和一個元數(shù)據(jù)服務(wù)器,所述方法包括以下步驟:S1:所述多個客戶端接收用戶的上傳數(shù)據(jù),將所述數(shù)據(jù)組織成數(shù)據(jù)超塊以作為數(shù)據(jù)路由單位,并提取其中的數(shù)據(jù)路由特征指紋,用于數(shù)據(jù)路由選擇;S2:所述元數(shù)據(jù)服務(wù)器與數(shù)據(jù)服務(wù)器集群根據(jù)路由策略來處理所述多個客戶端的數(shù)據(jù)路由選擇請求,其中,所述數(shù)據(jù)服務(wù)器集群對所述數(shù)據(jù)路由特征指紋進行相似指紋匹配以確定相似路由節(jié)點,所述元數(shù)據(jù)服務(wù)器根據(jù)負(fù)載均衡策略確定最終的數(shù)據(jù)路由地址;S3:確定數(shù)據(jù)路由地址后,所述客戶端與相應(yīng)的數(shù)據(jù)服務(wù)器進行交互,以將相似冗余數(shù)據(jù)發(fā)送至選擇的數(shù)據(jù)服務(wù)器,所述選擇的數(shù)據(jù)服務(wù)器在接收到相似冗余數(shù)據(jù)后,在線對冗余數(shù)據(jù)進行快速去重。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510848801.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 控制冗余數(shù)據(jù)包傳輸?shù)姆椒ā⒚襟w網(wǎng)關(guān)及系統(tǒng)
- 數(shù)據(jù)處理方法及裝置
- 數(shù)據(jù)傳輸?shù)姆椒ê脱b置
- 一種數(shù)據(jù)冗余的方法及裝置
- 一種機載激光雷達航帶間冗余數(shù)據(jù)自動去除方法
- 通道檢測及管理信息傳遞的冗余數(shù)據(jù)交互系統(tǒng)
- 一種存儲系統(tǒng)大數(shù)據(jù)優(yōu)化方法及裝置
- 一種數(shù)據(jù)傳輸?shù)姆椒ê驮O(shè)備
- 3D模型中冗余數(shù)據(jù)的清除方法、裝置及電子設(shè)備
- 一種知識庫的構(gòu)建方法及裝置
- 一種接管故障元數(shù)據(jù)服務(wù)器的方法、裝置及系統(tǒng)
- 分布式文件系統(tǒng)訪問方法、元數(shù)據(jù)服務(wù)器及客戶端
- 移動通信異地數(shù)據(jù)分享系統(tǒng)
- 一種元數(shù)據(jù)服務(wù)器熱點均衡方法
- 數(shù)據(jù)修復(fù)方法、裝置和系統(tǒng)
- 一種遠(yuǎn)程目錄分支點維護系統(tǒng)及其方法
- 一種管理學(xué)教學(xué)用模塊化實訓(xùn)系統(tǒng)
- 服務(wù)器故障熱切換方法、裝置和系統(tǒng)
- 一種元數(shù)據(jù)服務(wù)器的服務(wù)控制方法及裝置
- 數(shù)據(jù)存儲系統(tǒng)及方法
- 一種葉輪動平衡校正的精確去重方法
- 一種基于文件語義和系統(tǒng)實時狀態(tài)的冗余數(shù)據(jù)去重方法
- 屏蔽電機上座及其屏蔽泵
- 一種文本去重方法和裝置
- 一種數(shù)據(jù)計數(shù)去重方法、系統(tǒng)、服務(wù)器及存儲介質(zhì)
- 一種去重流量提示方法、裝置、服務(wù)器及存儲介質(zhì)
- 基于解析去重邏輯的去重平臺測試方法、裝置及計算機設(shè)備
- 一種海量互聯(lián)網(wǎng)新聞清洗系統(tǒng)
- 文本數(shù)據(jù)的去重方法、設(shè)備及存儲介質(zhì)
- 文本去重方法、裝置、電子設(shè)備及計算機可讀存儲介質(zhì)
- 一種基于云計算的數(shù)據(jù)存儲系統(tǒng)
- 一種多云存儲系統(tǒng)間資源共享的系統(tǒng)
- 異構(gòu)式云存儲系統(tǒng)及其數(shù)據(jù)處理方法
- 一種云存儲系統(tǒng)調(diào)度方法和裝置
- 一種視頻數(shù)據(jù)處理方法、裝置及系統(tǒng)
- 一種云存儲系統(tǒng)文件去重方法及系統(tǒng)
- 云存儲系統(tǒng)性能評測方法、裝置及計算機可讀存儲介質(zhì)
- 在基于云的存儲系統(tǒng)中服務(wù)I/O操作
- 異構(gòu)云存儲系統(tǒng)的數(shù)據(jù)處理方法及其可讀介質(zhì)和系統(tǒng)
- 云游戲數(shù)據(jù)存儲和檢索的高速數(shù)據(jù)通信架構(gòu)的系統(tǒng)和方法





