[發明專利]基于分布式文件系統的多層重復數據刪除方法及裝置在審
| 申請號: | 201610984188.7 | 申請日: | 2016-11-08 |
| 公開(公告)號: | CN106649556A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 李發明;張勤 | 申請(專利權)人: | 深圳市中博睿存科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分布式 文件系統 多層 重復 數據 刪除 方法 裝置 | ||
技術領域
本發明涉及信息存儲領域,尤其涉及基于分布式文件系統的多層重復數據刪除方法及裝置。
背景技術
現有的分布式文件系統中會使用重復數據刪除技術對重復數據進行存儲以提高磁盤利用率,降低成本。但是隨著技術和信息的發展,文件變得越來越多樣化,整個文件內容完全相同的幾率越來越小。例如,開發者會根據自己的需求對軟件做出針對性的修改,這種情況下,修改后的軟件與原軟件存在細微差異,現有的重復數據刪除方法對重復數據的刪除率較低。
發明內容
本發明的主要目的在于提供一種基于分布式文件系統的多層重復數據刪除方法及裝置,旨在提高對重復數據的刪除率。
為實現上述目的,本發明提供一種基于分布式文件系統的多層重復數據刪除方法,所述方法包括以下步驟:
獲取待寫入文件的數字指紋;
判斷全局文件數字指紋列表中是否存在所述待寫入文件的數字指紋;
若是,則記錄所述待寫入文件的元數據信息;
若否,則將待寫入文件按預設方式切片,并獲取每個切片的數字指紋;
判斷全局文件切片數字指紋列表中是否存在所述切片的數字指紋;
若是,則將所述切片的元數據信息記錄到存儲節點中;
若否,則將所述切片及該切片的數字指紋發送到對應的存儲節點。
優選的,所述將所述切片及該切片的數字指紋發送到對應的存儲節點之后還包括步驟:
判斷當前存儲節點的切片數字指紋列表中是否存在所述切片的數字指紋;
若是,則確認該切片寫入成功;
若否,則寫入所述切片,并將所述切片的數字指紋記錄到本存儲節點的切片數字指紋列表。
優選的,所述將所述切片寫入磁盤,并將所述切片的數字指紋記錄到本存儲節點的切片數字指紋列表之后還包括步驟:
定時獲取系統負載;
當系統負載低于預設值時,將每個存儲節點的切片數字指紋列表中的信息上傳至所述全局切片數字指紋列表。
優選的,所述將待寫入文件按預設方式切片,并獲取每個切片的數字指紋具體包括步驟:
判斷所述待寫入文件的大小是否大于預設值;
若是,則將所述待寫入文件按預設大小切片;
若否,則將所述待寫入文件整體確定為一個切片。
優選的,所述獲取待寫入文件的數字指紋具體包括步驟:
獲取所述待寫入文件的MD5校驗值和sha值;
將所述MD5校驗值和sha值的字符串疊加作為待寫入文件的數字指紋。
此外,為實現上述目的,本發明還提供一種基于分布式文件系統的多層重復數據刪除裝置,包括:
第一獲取模塊,用于獲取待寫入文件的數字指紋;
第一判斷模塊,用于判斷全局文件數字指紋列表中是否存在所述待寫入文件的數字指紋;
第一記錄模塊,用于在所述第一判斷模塊的判斷結果為“是”時,記錄所述待寫入文件的元數據信息;
切片模塊,用于在所述第一判斷模塊的判斷結果為“否”時,將待寫入文件按預設方式切片,并獲取每個切片的數字指紋;
第二判斷模塊,用于判斷全局文件切片數字指紋列表中是否存在所述切片的數字指紋;
第二記錄模塊,用于在所述第二判斷模塊的判斷結果為“是”時,將所述切片的元數據信息記錄到存儲節點中;
發送模塊,用于在所述第二判斷模塊的判斷結果為“否”時,將所述切片及該切片的數字指紋發送到對應的存儲節點。
優選的,還包括:
第三判斷模塊,用于判斷當前存儲節點的切片數字指紋列表中是否存在所述切片的數字指紋;
確認模塊,用于在所述第三判斷模塊判斷為“是”時時,確認該切片寫入成功;
寫入模塊,用于在所述第三判斷模塊判斷為“否”時,寫入所述切片,并將所述切片的數字指紋記錄到本存儲節點的切片數字指紋列表。
優選的,還包括:
第二獲取模塊,用于定時獲取系統負載;
上傳模塊,用于在系統負載低于預設值時,將每個存儲節點的切片數字指紋列表中的信息上傳至所述全局切片數字指紋列表。
優選的,所述切片模塊具體包括:
判斷單元,用于判斷所述待寫入文件的大小是否大于預設值;
切片單元,用于在所述判斷單元判斷為“是”時,將所述待寫入文件按預設大小切片;
確定單元,用于在所述判斷單元判斷為“否”時,將所述待寫入文件整體確定為一個切片。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市中博睿存科技有限公司,未經深圳市中博睿存科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610984188.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:不銹鋼嬰兒床(3)
- 下一篇:一種缺陷報告與郵件列表語義關聯挖掘方法





