[發明專利]一種基于Hadoop平臺的分布式重復數據刪除系統和方法有效
| 申請號: | 201510738881.1 | 申請日: | 2015-11-03 |
| 公開(公告)號: | CN105320773B | 公開(公告)日: | 2018-10-26 |
| 發明(設計)人: | 付印金;劉青;倪桂強;姜勁松;胡谷雨 | 申請(專利權)人: | 中國人民解放軍理工大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 何青瓦 |
| 地址: | 210000 江蘇省南京市海*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 主節點 重復數據刪除系統 工作節點 客戶端 分布式文件系統 重復數據刪除 細粒度數據 并行編程 發送文件 高吞吐率 可擴展性 數據分配 數據分片 索引信息 文件分片 新數據塊 細粒度 比對 分塊 構建 索引 指紋 并行 數據庫 存儲 查詢 反饋 保證 | ||
1.一種基于Hadoop平臺的分布式重復數據刪除方法,包括基于Hadoop平臺構建的重刪集群,所述重刪集群包括客戶端、主節點和至少兩個工作節點,其特征在于,包括如下步驟:
第一步,文件分片,由所述客戶端指定需要進行重復數據刪除處理的文件提交給所述主節點,所述主節點將接收的所述文件分成大小均等的粗粒度數據片;
第二步,數據片分配,由所述主節點通過Hadoop平臺將所述粗粒度數據片分配到所述各個工作節點;
第三步,數據片分塊,各工作節點均僅通過Map函數并行運行,對所分配的粗粒度數據片通過定長分塊方法或者變長分塊方法進一步劃分為細粒度數據塊,所述定長分塊方法是以固定大小的數據內容作為數據塊單元來劃分文件,所述變長分塊方法是基于文件的內容通過計算滑動窗口的弱哈希指紋來確定數據塊的分割點;
第四步,計算指紋值,各個工作節點對劃分后的細粒度數據塊根據哈希函數計算出所述細粒度數據塊的指紋值;
第五步,塊索引查詢,所述各個工作節點在已建立的塊索引中,查詢所述細粒度數據塊的指紋值是否存在,若所述細粒度數據塊的指紋值在所述索引中已存在,則不再存儲所述細粒度數據塊,若所述細粒度數據塊的指紋值在所述索引中不存在,則將所述細粒度數據塊存儲到HDFS文件系統中,并根據所述細粒度數據塊的存儲信息在所述塊索引中添加相應的塊索引信息,所述塊索引是通過HBase數據庫構建的一個全局塊索引,所述全局塊索引被各個工作節點所共享,并且所述HBase數據庫為分布式非關系型HBase數據庫;
第六步,文件元數據表更新,各個所述工作節點將所屬的所述細粒度數據塊對應的塊索引信息反饋給所述主節點,所述主節點將所述塊索引信息存儲到已建立的文件元數據表中,建立文件全路徑到細粒度數據塊的映射關系,以支持后續的文件讀操作。
2.根據權利要求1所述的基于Hadoop平臺的分布式重復數據刪除方法,其特征在于,所述Hadoop平臺以HDFS為底層文件系統,通過MapReduce并行編程范式在所述主節點與各個工作節點之間實現對所述重復數據刪除分布式并行處理。
3.根據權利要求2所述的基于Hadoop平臺的分布式重復數據刪除方法,其特征在于,所述文件元數據表存儲在所述HBase數據庫中。
4.根據權利要求3所述的基于Hadoop平臺的分布式重復數據刪除方法,其特征在于,所述塊索引包括塊指紋值、塊存儲地址、偏移、塊大小和重復次數。
5.根據權利要求4所述的基于Hadoop平臺的分布式重復數據刪除方法,其特征在于,所述文件元數據表包括文件全路徑和塊索引信息。
6.根據權利要求5所述的基于Hadoop平臺的分布式重復數據刪除方法,其特征在于,所述粗粒度數據塊大小為1Mbyte~256Mbyte,所述細粒度數據塊大小為1kbyte~128kbyte。
7.根據權利要求6所述的基于Hadoop平臺的分布式重復數據刪除方法,其特征在于,所述細粒度數據塊的指紋值是通過MD系列或SHA系列的加密哈希函數計算得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍理工大學,未經中國人民解放軍理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510738881.1/1.html,轉載請聲明來源鉆瓜專利網。





