[發明專利]重復數據刪除方法無效
| 申請號: | 201110330421.7 | 申請日: | 2011-10-27 |
| 公開(公告)號: | CN102323958A | 公開(公告)日: | 2012-01-18 |
| 發明(設計)人: | 安然;談川玉;盧寶豐 | 申請(專利權)人: | 上海文廣互動電視有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海唯源專利代理有限公司 31229 | 代理人: | 曾耀先 |
| 地址: | 200041 上海市靜*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 重復 數據 刪除 方法 | ||
技術領域
本發明涉及一種數據刪除方法,尤指一種重復數據刪除方法。
背景技術
重復數據刪除(De-duplication)是一種數據縮減技術,旨在減少存儲系統中使用的存儲容量。它通過刪除存儲系統中重復的數據,只保留其中的一份,從而消除冗余數據。重復數據刪除技術可以很大程度上減少對物理存儲空間的消耗。
重復數據刪除技術根據數據處理方式可分為在線處理方式(In-Line)與后處理方式(Post-Process)。
在線處理方式的重復數據刪除方法是在數據寫入磁盤之前執行重復數據刪除。在線處理的重復數據刪除在一定程度上減少了數據量,但同時也存在一個問題,去重操作本身會降低數據吞吐速率,造成業務性能的降低。另外,由于重復數據刪除是在寫入到磁盤之前進行的,因此重復數據刪除處理過程本身就是一個單點故障。
后處理方式的重復數據刪除方法是在數據寫到磁盤后再執行重復數據刪除。數據先被寫入到臨時的磁盤空間,之后再開始重復數據刪除,最后將經過重復數據刪除的數據寫入磁盤。由于重復數據刪除是數據寫入磁盤后再在單獨的存儲設備上執行的,因此一般對正常業務處理幾乎不產生影響。但由于目前的后處理方式不能對系統資源的占用進行動態調整,也不具備優先保障在線業務性能的功能,當系統占用率過大時,還是會對系統在線業務造成影響。
重復數據刪除技術根據去重粒度可以分為文件級、文件塊級、字節級。
文件級的重復數據刪除以文件為單位來檢測、刪除重復數據。該方式的優點是算法簡單,計算速度快,缺點是去重率低。
文件塊級的重復數據刪除將一個文件按不同的方式劃分成數據塊,以數據塊為單位進行檢測。該方法的優點是計算速度快、對數據變化較敏感。
文件塊級重刪按照分塊方式的不同又分為定長分塊與變長分塊方式。
請參閱圖3,定長分塊方式將文件劃分為固定長度的塊,但此方法對數據的插入和刪除非常敏感,實際應用中數據重復度非常低,重刪效果十分有限。
字節級的重復數據刪除從字節層次查找和刪除重復的內容,一般通過差異壓縮策略生成差異部分內容。字節級去重的優點是去重率較高,缺點是去重速度較慢。
另外,傳統重復數據刪除方法,通過單個物理設備提供數據業務,進行重復數據刪除時,會形成故障單點,對系統可靠性帶來了挑戰。
發明內容
本發明的目的在于克服現有技術的缺陷,而提供一種重復數據刪除方法,實現了可動態調整重刪操作對系統資源的占用,優先保障在線業務的性能,對系統在線業務的影響降至最低的重復數據刪除方法,具有可靠性高、穩定性好、去重率更高,性能優的特點。
實現上述目的的技術方案是:
本發明的一種重復數據刪除方法,包括:
寫入文件,對所述文件進行變長分塊,形成不同長度的復數個數據塊并計算所述數據塊的哈希值;
通過對所述哈希值進行抽樣,形成所述文件的抽樣數據;
通過比較所述文件的抽樣數據與現有文件的抽樣數據,定位所述文件的一相似性組;
通過比較所述文件的哈希值和一元數據庫中所述相似性組的哈希值,確定重復數據塊;
去重保存非重復數據塊;
生成元文件,并將所述非重復數據塊的哈希值保存至所述元數據庫中。
上述變長分塊采用滑動窗口技術,根據文件內容進行數據切分,該技術對文件內容變化不敏感,插入或刪除數據只會影響到較少的數據塊,其余數據塊不受影響。
當計算上述數據塊的哈希值時,通過所述滑動窗口技術中一滑動窗口滑動前的哈希值,滑入字節值和滑出字節值計算所述滑動窗口滑動后的內部字節數組的哈希值,提高了重刪操作的運算效率。
當計算上述數據塊的哈希值時,限定一所述數據塊大小的最小值,從所述數據塊頭部最小值區間內的數據不進行哈希值計算,降低了計算開銷,提高了重刪操作的運行效率。
當在比較上述文件的抽樣數據與現有文件的抽樣數據時,若所述文件的抽樣數據與當前現有文件的抽樣數據的相似度超過一定數值,則確定當前現有文件的抽樣數據對應的數據組為所述文件的一相似性組。
上述數據塊按照似性組分組保存。
上述元文件是原文件的數據描述,包含了原文件的各項文件屬性等內容,并記錄了原文件各數據塊的存放位置。
當系統收到一讀寫請求時,進一步包括以下步驟:
判斷目標文件是否為經過重刪操作的文件;
若所述目標文件未經過重刪操作,直接讀寫所述目標文件;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海文廣互動電視有限公司,未經上海文廣互動電視有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110330421.7/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





