[發明專利]一種基于Hadoop平臺的分布式重復數據刪除系統和方法有效
| 申請號: | 201510738881.1 | 申請日: | 2015-11-03 |
| 公開(公告)號: | CN105320773B | 公開(公告)日: | 2018-10-26 |
| 發明(設計)人: | 付印金;劉青;倪桂強;姜勁松;胡谷雨 | 申請(專利權)人: | 中國人民解放軍理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 何青瓦 |
| 地址: | 210000 江蘇省南京市海*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主節點 重復數據刪除系統 工作節點 客戶端 分布式文件系統 重復數據刪除 細粒度數據 并行編程 發送文件 高吞吐率 可擴展性 數據分配 數據分片 索引信息 文件分片 新數據塊 細粒度 比對 分塊 構建 索引 指紋 并行 數據庫 存儲 查詢 反饋 保證 | ||
本發明公開了一種基于Hadoop平臺的分布式重復數據刪除系統和方法。該系統包括客戶端、主節點和工作節點,通過Hadoop平臺的MapReduce并行編程框架實現分布式并行重復數據刪除處理,實現方法包括客戶端向主節點發送文件,主節點完成文件分片、數據分配以及構建文件元數據表,各個工作節點對數據分片按細粒度進行分塊,計算細粒度數據塊的指紋值,并在數據庫Hbase的索引中進行查詢比對,將新數據塊存儲在分布式文件系統HDFS中,再將索引信息反饋給主節點。該系統和方法能在保證高重刪率的同時,具有高吞吐率和良好的可擴展性。
技術領域
本發明涉及計算機數據存儲管理領域,特別是涉及一種基于Hadoop平臺的分布式重復數據刪除系統和方法。
背景技術
隨著信息技術高速發展,云計算、物聯網、信息柵格以及各種社交平臺等新興技術不斷涌現,數據類型逐漸多樣化,數據量急劇增長。面對持續膨脹的海量數據,存儲系統容量以及存儲數據管理逐步成為富有挑戰性的問題。一方面,數據中心需要增加大量的存儲設備以滿足海量數據存儲需求,另一方面,存儲設備的增加會帶來企業采購、管理、電力等成本投入。然而,數據中心的數據存儲普遍具有高冗余特點,尤其是備份存儲系統和基于虛擬機的主存儲系統。如何縮減冗余數據,提升存儲空間的有效利用率,進而減少企業維護管理開銷,成為目前熱門研究領域。
在現有技術中,通過重復數據刪除(簡稱重刪)技術可以檢測并消除內容重復的數據,極大縮減數據存儲容量,優化存儲空間利用率,并可減少數據傳輸的網絡開銷,節省網絡帶寬。與傳統數據壓縮技術相比,重復數據刪除技術不僅可以消除文件內的數據冗余,還能消除共享數據集內文件之間的數據冗余,在數據備份、容災以及歸檔存儲等方面應用廣泛。
當采用單服務器進行重復數據刪除時,存在處理能力有限,速率較低,不能滿足大規模備份數據管理的需求。為此,現有技術中開始采用分布式重復數據刪除方法,主要是通過建立分布式重復數據刪除系統實現分布式并行數據消重,能夠有效提升重復數據刪除效率,但同時增加了系統復雜性,帶來數據分塊、路由策略選擇、系統擴展性、負載均衡等問題。
具體而言,現有技術中的分布式重復數據刪除方法主要存在以下問題:一是重復數據刪除的效率問題,例如當使用分布式的服務器并行處理一個文件中的重復數據時,需要根據服務器的數量及文件大小合理確定對該文件的分割大小,這是因為對文件分割的數據片的大小與重刪率密切相關,若被分割的數據片的粒度越細,檢測出的重復數據塊越多,但對重復數據塊的處理時間也會相應增加,因此,需要在重刪率和處理時間上進行權衡,提高重復數據刪除的并行處理效率;二是重復數據刪除的整體性問題,這是因為各服務器并行處理一個文件的數據片時,具有獨立性,分別獨立處理數據片中的重復數據塊,若這些服務器之間沒有協調機制,則會存在重刪效果不充分的問題,例如在兩個服務器上存在相同的重復數據塊,若分別處理后不再協調,則該重復數據塊在兩個服務器上均有處理記錄信息并分別存儲在這兩個服務器上,但對于整體而言,只需存儲一次該重復數據塊即可,造成了數據重刪在服務器之間仍留有冗余的問題;三是重復數據刪除的可靠性問題,為達到整體性的重刪效果,通過多服務器并行重刪處理后,各服務器之間增加了依賴關系,若僅有對處理記錄和經過重刪處理后數據的一次性存儲,而沒有進行必要的副本備份,則任何數據損失都會造成多個文件損壞,在可靠性方面,系統面臨著很大的潛在風險。
發明內容
本發明主要解決的技術問題是提供一種基于Hadoop平臺的分布式重復數據刪除系統和方法,解決現有技術中分布式重復數據刪除方法效率不高、各服務器之間因缺乏整體性協調而導致重刪效果不充分、以及可靠性不強等問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍理工大學,未經中國人民解放軍理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510738881.1/2.html,轉載請聲明來源鉆瓜專利網。





