[發明專利]基于GlusterFS分布式文件系統的離線去重方法有效
| 申請號: | 201711317259.9 | 申請日: | 2017-12-12 |
| 公開(公告)號: | CN108563649B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 莊鵬盛;李丹;王凱;張冠梟 | 申請(專利權)人: | 南京富士通南大軟件技術有限公司 |
| 主分類號: | G06F16/174 | 分類號: | G06F16/174;G06F16/182 |
| 代理公司: | 南京鐘山專利代理有限公司 32252 | 代理人: | 戴朝榮 |
| 地址: | 210012 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 glusterfs 分布式 文件系統 離線 方法 | ||
本發明公開了一種基于GlusterFS分布式文件系統的離線去重方法,包括:計算所有文件的哈希值;將文件的大小和該文件的哈希值作為Key值,建立哈希樹;擇一組大小相同且哈希值相同的多個文件并標記為相同文件;根據分布式文件系統中每個存儲設備的剩余容量大小和每個存儲設備中存儲的相同文件的個數從分布式文件系統中選擇一個存儲設備并將該存儲設備標記為指定移動存儲設備;將分布式文件系統中的存儲設備中存儲的相同文件均移動到指定移動存儲設備中;采用文件去重方法從指定移動存儲設備中刪除相同文件,保證相同文件只有一份;本發明有效地解決了分布式存儲中可能存在的大量重復數據的問題,大大提升了分布式存儲系統的存儲能力。
技術領域
本發明屬于GlusterFS分布式文件系統領域,具體涉及一種基于GlusterFS分布式文件系統的離線去重方法。
背景技術
GlusterFS是一種擴展性較好的網絡文件系統,可以解決網絡存儲,聯合存儲,冗余備份和大文件負載均衡等問題。所以,在分布式存儲系統中得到了廣泛的應用。但是,不乏缺少一些關鍵特性,如相同文件的去重處理。
傳統單機文件系統能夠實現相同文件的去重,但是無法有效的與分布式文件系統相結合,并且,這些問題在相當長的一段時間內依然是無法解決的,大大限制了分布式存儲系統的發展。
發明內容
本發明所要解決的技術問題是針對上述現有技術的不足提供一種基于GlusterFS分布式文件系統的離線去重方法,本基于GlusterFS分布式文件系統的離線去重方法解決分布式文件系統中可能存在的大量重復數據的問題。
為實現上述技術目的,本發明采取的技術方案為:
一種基于GlusterFS分布式文件系統的離線去重方法,包括以下步驟:
步驟1::遍歷分布式文件系統中的所有的文件,采用哈希算法計算出所有文件的哈希值;
步驟2:將文件的大小和該文件的哈希值作為Key值,建立哈希樹;
步驟3:判斷分布式文件系統中是否存在大小相同且哈希值相同的多個文件,如果存在,選擇一組大小相同且哈希值相同的多個文件并將該多個文件均標記為相同文件,將所述相同文件添加到相同文件所對應的節點指向的鏈表中;
步驟4:根據分布式文件系統中每個存儲設備的剩余容量大小和每個存儲設備中存儲的所述相同文件的個數從分布式文件系統中選擇一個存儲設備并將該存儲設備標記為指定移動存儲設備;
步驟5:將分布式文件系統中的存儲設備中存儲的所述相同文件均移動到指定移動存儲設備中;
步驟6:采用文件去重方法從指定移動存儲設備中刪除所述相同文件,保證所述相同文件只有一份,返回執行步驟3,直到將分布式文件系統包含的所有組合的相同文件均進行去重操作,結束。
進一步地,所述的步驟4包括以下步驟:
(1)讀取分布式文件系統中每個存儲設備的剩余容量大小,并判斷分布式文件系統中每個存儲設備中存儲的所述相同文件的個數;
(2)將每個存儲設備按照存儲的所述相同文件的個數大小進行降序排列,即將存儲的所述相同文件的個數最多的存儲設備排在第一位,將排在第一位的存儲設備標記為待確定移動存儲設備,判斷該待確定移動存儲設備的剩余容量大小是否大于分布式文件系統中的其他存儲設備中存儲的所述相同文件的總大小,若大于,則將待確定移動存儲設備標記為指定移動存儲設備,否則,執行步驟(3);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京富士通南大軟件技術有限公司,未經南京富士通南大軟件技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711317259.9/2.html,轉載請聲明來源鉆瓜專利網。





