[發明專利]一種具有與并行文件系統結合的重復數據刪除文件系統的架構及方法有效
| 申請號: | 201310168444.1 | 申請日: | 2013-05-06 |
| 公開(公告)號: | CN103279502A | 公開(公告)日: | 2013-09-04 |
| 發明(設計)人: | 周曉陽;周游 | 申請(專利權)人: | 北京賽思信安技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 周長琪 |
| 地址: | 100016 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 具有 并行 文件系統 結合 重復 數據 刪除 架構 方法 | ||
技術領域
本發明屬于數據存儲技術領域,涉及一種透明的與重復數據刪除文件系統結合的方案,具體是一種具有與并行文件系統結合的重復數據刪除文件系統的架構及方法。
背景技術
但現有的大部分并行文件系統如集群并行文件系統Lustre,藍鯨集群文件系統BWFS等,都沒有內置實現重復數據刪除功能。而在這些集中存儲系統中,存在大量的冗余數據信息,某些情況下冗余數據量甚至可以達到幾十倍甚至上百倍,并且隨著時間的推移,冗余數據量會越來越大。例如:在數據備份和歸檔系統中,大量文件數據變動較小,甚至存在多個副本,經過多次的歸檔存儲,產生了大量的冗余數據;辦公自動化系統中,文件流轉、版本修訂比較普遍,一個文件可能會被抄送給多個人,一個文件可能有多個版本,這其中有大量的重復數據;另外,郵件群發、轉發也會導致大量的信息冗余。數據量的急劇增長極大地增加了數據中心的管理成本和能耗成本。因此如何縮減對數據存儲空間的需求,降低數據存儲成本成為一個亟待解決的難題。
重復數據刪除技術(又被稱為消冗技術)能夠有效的識別并消除數據中的重復數據,提高存儲資源的利用率,因此逐漸成為一個研究熱點。
但同時通過修改已有系統或應用來支持該重復數據刪除功能具有較大的難度和風險,因此如何透明地將重復數據刪除技術結合到已有并行文件系統中成為一個亟待解決的問題。
發明內容
本發明針對如何透明地將重復數據刪除技術結合到已有并行文件系統中的問題,提供了一種具有與并行文件系統結合的重復數據刪除文件系統的架構及方法。
本發明提供的一種具有與并行文件系統結合的重復數據刪除文件系統的架構,包括客戶端設備、并行文件系統集群、重復數據刪除網關集群和存儲設備??蛻舳嗽O備之上運行業務系統,生成數據流。并行文件系統集群部署并行文件系統,并行文件系統對外提供并行文件系統訪問接口。并行文件系統集群包括一個以上的并行文件系統設備,并行文件系統設備分為元數據服務器和數據服務器。重復數據刪除網關集群中包括一個以上的重復數據刪除網關,重復數據刪除網關部署重復數據刪除文件系統,對外提供重復數據刪除功能,具體,重復數據刪除網關上部署有重復數據刪除處理引擎和數據遷移系統;重復數據刪除處理引擎對并行文件系統存儲的數據進行重復數據刪除處理及還原處理;數據遷移系統將并行文件系統中達到遷移條件的數據遷移到重復數據刪除文件系統中存儲。存儲設備用于存儲數據信息,并與并行文件系統設備、重復數據刪除網關互聯。客戶端設備和重復數據刪除網關通過并行文件系統訪問接口,對并行文件系統內的數據進行讀寫刪除操作。
重復數據刪除處理引擎對數據進行處理的方法是:首先,讀取文件的數據,并對數據分塊,計算每個數據塊的指紋,然后,對每個數據塊的指紋在數據塊索引表中查詢,若查詢到,則該數據塊已經存在,不再進行存儲,否則,該數據塊為新數據塊,存儲該數據塊到數據塊倉庫中,并在數據塊索引表中生成對應的元組。所述的數據塊索引表用于數據塊的查重操作,元組格式為<數據塊指紋,數據塊所在文件,數據塊在文件內的偏移量,數據塊長度,數據塊引用計數>。所述的數據塊倉庫中用于存儲不重復的數據塊,設置在存儲設備中。
數據遷移系統通過并行文件系統訪問接口,定期掃描并行文件系統中的文件,將達到遷移條件的文件,遷移到重復數據刪除文件系統的中,并在并行文件系統中為原文件建立與遷移后文件的關聯,要遷移的文件通過重復數據刪除處理引擎處理后存儲在重復數據刪除文件系統中,在數據塊映射表中生成該文件對應的元組,每個元組的格式為<文件唯一標識,ChunkFP1,ChunkFP2,…,ChunkFPi,…>,其中,ChunkFPi表示第i個數據塊的指紋。
客戶端設備通過重復數據刪除系統文件訪問接口,在重復數據刪除文件系統中訪問從并行文件系統設備中遷移的文件,具體是:在并行文件系統中,根據原文件與遷移后文件的關聯,重定向到重復數據刪除系統文件中遷移后的文件,從數據塊映射表中找到該文件所包含的數據塊的指紋,根據數據塊指紋,從數據塊索引表中找到相應數據塊的存儲地址,從數據塊倉庫中讀取數據,所讀取的數據通過重復數據刪除文件系統訪問接口返回給客戶端設備1。
基于上述具有與并行文件系統結合的重復數據刪除文件系統的架構,本發明提供的與并行文件系統結合的重復數據刪除方法,主要包括如下三方面:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京賽思信安技術有限公司,未經北京賽思信安技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310168444.1/2.html,轉載請聲明來源鉆瓜專利網。





