[發(fā)明專利]一種基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)和方法有效
| 申請?zhí)枺?/td> | 201510738881.1 | 申請日: | 2015-11-03 |
| 公開(公告)號: | CN105320773B | 公開(公告)日: | 2018-10-26 |
| 發(fā)明(設(shè)計)人: | 付印金;劉青;倪桂強;姜勁松;胡谷雨 | 申請(專利權(quán))人: | 中國人民解放軍理工大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市威世博知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44280 | 代理人: | 何青瓦 |
| 地址: | 210000 江蘇省南京市海*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 主節(jié)點 重復(fù)數(shù)據(jù)刪除系統(tǒng) 工作節(jié)點 客戶端 分布式文件系統(tǒng) 重復(fù)數(shù)據(jù)刪除 細粒度數(shù)據(jù) 并行編程 發(fā)送文件 高吞吐率 可擴展性 數(shù)據(jù)分配 數(shù)據(jù)分片 索引信息 文件分片 新數(shù)據(jù)塊 細粒度 比對 分塊 構(gòu)建 索引 指紋 并行 數(shù)據(jù)庫 存儲 查詢 反饋 保證 | ||
1.一種基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除方法,包括基于Hadoop平臺構(gòu)建的重刪集群,所述重刪集群包括客戶端、主節(jié)點和至少兩個工作節(jié)點,其特征在于,包括如下步驟:
第一步,文件分片,由所述客戶端指定需要進行重復(fù)數(shù)據(jù)刪除處理的文件提交給所述主節(jié)點,所述主節(jié)點將接收的所述文件分成大小均等的粗粒度數(shù)據(jù)片;
第二步,數(shù)據(jù)片分配,由所述主節(jié)點通過Hadoop平臺將所述粗粒度數(shù)據(jù)片分配到所述各個工作節(jié)點;
第三步,數(shù)據(jù)片分塊,各工作節(jié)點均僅通過Map函數(shù)并行運行,對所分配的粗粒度數(shù)據(jù)片通過定長分塊方法或者變長分塊方法進一步劃分為細粒度數(shù)據(jù)塊,所述定長分塊方法是以固定大小的數(shù)據(jù)內(nèi)容作為數(shù)據(jù)塊單元來劃分文件,所述變長分塊方法是基于文件的內(nèi)容通過計算滑動窗口的弱哈希指紋來確定數(shù)據(jù)塊的分割點;
第四步,計算指紋值,各個工作節(jié)點對劃分后的細粒度數(shù)據(jù)塊根據(jù)哈希函數(shù)計算出所述細粒度數(shù)據(jù)塊的指紋值;
第五步,塊索引查詢,所述各個工作節(jié)點在已建立的塊索引中,查詢所述細粒度數(shù)據(jù)塊的指紋值是否存在,若所述細粒度數(shù)據(jù)塊的指紋值在所述索引中已存在,則不再存儲所述細粒度數(shù)據(jù)塊,若所述細粒度數(shù)據(jù)塊的指紋值在所述索引中不存在,則將所述細粒度數(shù)據(jù)塊存儲到HDFS文件系統(tǒng)中,并根據(jù)所述細粒度數(shù)據(jù)塊的存儲信息在所述塊索引中添加相應(yīng)的塊索引信息,所述塊索引是通過HBase數(shù)據(jù)庫構(gòu)建的一個全局塊索引,所述全局塊索引被各個工作節(jié)點所共享,并且所述HBase數(shù)據(jù)庫為分布式非關(guān)系型HBase數(shù)據(jù)庫;
第六步,文件元數(shù)據(jù)表更新,各個所述工作節(jié)點將所屬的所述細粒度數(shù)據(jù)塊對應(yīng)的塊索引信息反饋給所述主節(jié)點,所述主節(jié)點將所述塊索引信息存儲到已建立的文件元數(shù)據(jù)表中,建立文件全路徑到細粒度數(shù)據(jù)塊的映射關(guān)系,以支持后續(xù)的文件讀操作。
2.根據(jù)權(quán)利要求1所述的基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除方法,其特征在于,所述Hadoop平臺以HDFS為底層文件系統(tǒng),通過MapReduce并行編程范式在所述主節(jié)點與各個工作節(jié)點之間實現(xiàn)對所述重復(fù)數(shù)據(jù)刪除分布式并行處理。
3.根據(jù)權(quán)利要求2所述的基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除方法,其特征在于,所述文件元數(shù)據(jù)表存儲在所述HBase數(shù)據(jù)庫中。
4.根據(jù)權(quán)利要求3所述的基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除方法,其特征在于,所述塊索引包括塊指紋值、塊存儲地址、偏移、塊大小和重復(fù)次數(shù)。
5.根據(jù)權(quán)利要求4所述的基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除方法,其特征在于,所述文件元數(shù)據(jù)表包括文件全路徑和塊索引信息。
6.根據(jù)權(quán)利要求5所述的基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除方法,其特征在于,所述粗粒度數(shù)據(jù)塊大小為1Mbyte~256Mbyte,所述細粒度數(shù)據(jù)塊大小為1kbyte~128kbyte。
7.根據(jù)權(quán)利要求6所述的基于Hadoop平臺的分布式重復(fù)數(shù)據(jù)刪除方法,其特征在于,所述細粒度數(shù)據(jù)塊的指紋值是通過MD系列或SHA系列的加密哈希函數(shù)計算得到。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍理工大學(xué),未經(jīng)中國人民解放軍理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510738881.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種分層軟件版權(quán)保護方法
- 一種控制非主節(jié)點類型和規(guī)模的方法和系統(tǒng)
- 備用節(jié)點的確定方法及節(jié)點
- 一種控制非主節(jié)點類型和規(guī)模的系統(tǒng)
- 交換主節(jié)點
- 主時鐘節(jié)點的相差測量方法及裝置和校準方法及裝置
- 一種分布式文件存儲系統(tǒng)主節(jié)點管理方法及裝置
- 智能電網(wǎng)中電信號處理方法及裝置
- 數(shù)據(jù)同步方法、系統(tǒng)、電子設(shè)備及計算機可讀存儲介質(zhì)
- 一種握手方法、裝置、相關(guān)設(shè)備、存儲介質(zhì)及系統(tǒng)
- 一種適用于云備份的重復(fù)數(shù)據(jù)刪除方法
- 重復(fù)數(shù)據(jù)刪除系統(tǒng)
- 在包含源和目標的分布式環(huán)境中進行重復(fù)數(shù)據(jù)刪除的集成方法
- 用于允許跨用戶的重復(fù)數(shù)據(jù)刪除的存儲折扣
- 一種基于無中心分布系統(tǒng)的全局重復(fù)數(shù)據(jù)刪除系統(tǒng)及方法
- 一種數(shù)據(jù)處理方法及裝置
- 重復(fù)數(shù)據(jù)刪除系統(tǒng)及其刪除方法
- 一種具有與并行文件系統(tǒng)結(jié)合的重復(fù)數(shù)據(jù)刪除文件系統(tǒng)的架構(gòu)及方法
- 云存儲中一種重復(fù)數(shù)據(jù)刪除算法
- 使用幽靈指紋進行工作負載優(yōu)化的重復(fù)數(shù)據(jù)刪除





