[發明專利]文件分塊方法、系統及文件處理系統在審
| 申請號: | 201410079209.1 | 申請日: | 2014-03-05 |
| 公開(公告)號: | CN104899210A | 公開(公告)日: | 2015-09-09 |
| 發明(設計)人: | 劉煌;石小兵;袁清 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 余剛;梁麗超 |
| 地址: | 518057 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文件 分塊 方法 系統 處理 | ||
技術領域
本發明涉及通信領域,具體而言,涉及一種文件分塊方法、文件分塊系統及文件處理系統。
背景技術
隨著計算機信息化程度的提高,人類已經進入信息時代。計算機以及互聯網已經深入各行各業,這也使得信息數據量呈幾個級數增長。而在這海量的數據中,存在大量的冗余數據。由于需要保證數據的安全,因此會不斷對數據進行備份,而各個備份中存在大量的冗余數據。
目前已經有不少針對冗余數據進行處理的被稱為重復數據刪除的技術,以及相關的產品。在重復數據刪除技術中,對于處理的目標(粒度),目前最為普遍的是采用次文件級的塊作為數據重刪的處理粒度。而在對一個文件進行分塊時存在固定長度分塊(定長分塊)和變長分塊兩大類。
固定長度分塊處理方便,分塊計算消耗的性能開銷非常的小,并且對數據管理開銷小。且大部分文件系統的與數據分塊都是固定長度的(至少在同一個文件中,分塊的長度是固定的),因此使用固定長度分塊的方法不需要對文件系統有額外的要求。但是固定長度的分塊方式對于一個文件在插入數據和刪除數據方面非常敏感,可能導致所有分塊的位置發生變化,這時兩個有大量重復數據的文件可能由于分塊問題,而沒有重復的數據塊,從而無法進行重刪處理。因此固定長度分塊的方法,雖然實現簡單,計算效率高,且對文件系統沒有特別的要求,但是其能達到的重刪率不夠理想;特別是在備份系統中,存在大量文件是被經過增加或刪操作一些數據修改得來的情況下,重刪率更低。
變長的分塊處理可以解決固定長度分塊對于插入刪除敏感的問題,可以帶來更高的重刪率。常用的變長分塊算法有內容定義塊(Content-Defined?Chunking,簡稱為CDC)算法、滑塊算法等。但這些算法都需要一定的計算資源,并且由于每個塊的實際數據長度不同,需要文件系統具有對于不同長度的塊的處理能力,且其長度變化的粒度為字節級。
市面上已經有不少成熟的定長分塊的重復數據刪除產品,也已有不少用戶部署了這些定長分塊的產品。但很多情況下,這些用戶對于變長分塊的數據重刪方式是有需求的,這時就必須要更換整個重刪產品,并且其存儲系統可能還無法提供變長重復數據刪除技術所需要的支持。重復數據刪除在對數據的處理時機上,有嵌入(inline)方式的嵌入在整個輸入/輸出(I/O)流程中的實時重復數據刪除,以及根據執行策略對已經寫入存儲系統中的數據進行重刪的后處理式。后處理式可以根據策略在空閑時間對系統中的數據進行消重,不影響正常存儲業務,因此應用廣泛。對于定長分塊的后處理重刪,在重刪過程中,由于數據塊已經在磁盤中,在執行重刪時,可以不用再次讀寫實際數據塊(例如僅僅只修改數據塊的引用指針)。但如果使用變長的分塊方式使用后處理重刪,由于需要對存儲設備上的文件數據重新分塊,需要將實際數據讀出來,重新分塊,再寫入存儲設備。
針對相關技術中的定長分塊的存儲系統無法支持變長分塊的重復數據刪除,從而導致定長分塊重刪系統擴展為變長分塊的重刪系統需要更換文件存儲系統、擴展成本高的問題,目前尚未提出有效的解決方案。
發明內容
本發明提供了一種文件分塊方法、系統及文件處理系統,以至少解決相關技術中的定長分塊的存儲系統無法支持變長分塊的重復數據刪除,從而導致定長分塊重刪系統擴展為變長分塊的重刪系統需要更換文件存儲系統、擴展成本高的問題。
根據本發明的一個方面,提供了一種文件分塊方法,包括:通過變長分塊算法,將文件分塊為一個或多個變長分塊;將所述一個或多個變長分塊中的每個變長分塊分別映射為預定分塊長度或預定分塊長度的整數倍的定長分塊。
優選地,將所述一個或多個變長分塊中的每個變長分塊分別映射為所述定長分塊包括:在待映射變長分塊的長度小于所述預定分塊長度的情況下,填充所述待映射變長分塊為所述預定分塊長度的所述定長分塊;在所述待映射變長分塊的長度大于所述預定分塊長度的情況下,填充所述待映射變長分塊為所述預定分塊長度的整數倍的所述定長分塊。
優選地,在將所述一個或多個變長分塊中的每個變長分塊分別映射為所述定長分塊之后,所述方法還包括:保存所述文件的分塊信息,其中,所述分塊信息包括:所述文件的所述定長分塊的位置信息,和所述文件的所述定長分塊對應的變長分塊的長度。
優選地,在保存所述文件的所述分塊信息之后,所述方法還包括:將所述定長分塊發送至文件存儲系統。
優選地,在將所述定長分塊存儲至所述文件存儲系統之后,所述方法還包括:對所述文件存儲系統中存儲的定長分塊進行重復數據刪除操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410079209.1/2.html,轉載請聲明來源鉆瓜專利網。





