[發明專利]一種在數據存儲前去除重復數據的方法有效
| 申請號: | 201310278342.5 | 申請日: | 2013-07-04 |
| 公開(公告)號: | CN104281412A | 公開(公告)日: | 2015-01-14 |
| 發明(設計)人: | 鄔玉良 | 申請(專利權)人: | 北京中科同向信息技術有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 存儲 去除 重復 方法 | ||
技術領域
本發明涉及一種在數據存儲前去除重復數據的方法,屬于計算機數據處理領域。
背景技術
近年來使用計算機進行數據存儲的需求越來越大,對數據存數的速度有效率要求也越來越高。當前,企業數據存儲膨脹性增長,數據量在短時間內就會翻倍,這對企業會造成非常大的經費壓力。
重復數據刪除是一種目前主流并且非常熱門的存儲技術,可對存儲容量進行有效優化。重復數據刪除是一個將輸入數據流與之前保存在系統中的數據進行比較、找出冗余的子文件信息、只保存一個版本的文件信息的流程。在備份過程中這項技術非常有價值,因為大多數的數據都是相同的,尤其是從完全備份到完全備份。重復數據刪除已經成為存儲行業非常熱門的話題和一大類商業產品。這是因為重復數據刪除可以大幅減少購置和運行成本,同時提高存儲效率。隨著數據量的爆炸性增長,接近一半的數據中心管理員都將數據增長評為三大挑戰之一。根據最近的Gartner調查結果,重復數據刪除可以減輕存儲預算的壓力并幫助存儲管理員應對數據的增長。
雖然重復數據刪除主要被視為一種容量優化技術,不過該技術也可以帶來性能上的好處一隨著所需存儲的數據的減少,系統所需遷移的數據也減少。
重復數據刪除技術可以應用在數據生命周期上的不同點上:從來源端重復數據刪除,到傳輸中重復數據刪除,一直到存儲目標端重復數據刪除。這些技術還可以應用在所有的存儲層上:備份、歸檔和主存儲。
無論使用哪種方式,重復數據刪除就是一個在不同層次的粒度性上識別重復數據并將重復數據替代為指向共享復件的指針的過程,這樣可以節約存儲空間和遷移數據所需的帶寬。
重復數據刪除流程包括跟蹤并識別那些被刪除的重復數據,以及識別和存儲那些新的和獨一無二的數據。數據的終端用戶完全不會感覺到這些數據可能已經被執行重復數據刪除流程并已經在其數據生命周期中被重建許多次。
對數據進行重復數據刪除操作有幾種不同的方式。單實例存儲(SIS)是在文件或塊層次上進行重復數據刪除。重復副本會被一個帶著指針的實例所取代,而指針則指向原始文件或對象。
次文件層重復數據刪除的操作粒度則比文件或對象更小。這種技術有兩種常見的方式:固定塊重復數據刪除一數據被分解成固定長度的部分或塊;可變長度重復數據刪除--數據根據一個滑行的窗口進行重復數據刪除。
數據壓縮是對數據進行編碼以減小它的大小;它還可以用于那些已經被重復數據刪除的數據以進一步減少存儲消耗。重復數據刪除和數據壓縮雖不同但互補--例如,數據可能重復數據刪除的效率很高但是壓縮的效率很低。
此外,重復數據刪除數據可以在線執行;也就是說,在數據被寫入目標端的時候進行重復數據刪除操作;當然,重復數據刪除也可以以后處理的方式執行,也就是在數據已經被寫入并存儲在磁盤上的時候執行。
發明內容
本發明是針對存儲過程中重復數據刪除提出的一種在存儲前刪除重復數據的方法,以解決在計算機數據歸檔、存儲、備份、遠程容災、災難恢復中計算機存儲空間利用率低和降低數據存儲后的重復數據刪除誤判的幾率。
重復刪除數據有基于文件和基于數據塊的區分,兩者對于重復數據的處理效果是不同的,不同的應用所產生的數據效果是不一樣的,本發明所采用的方法是基于數據塊的重復數據刪除。
本發明提出的在數據存儲前根據待處理數據的組織特征刪除重復數據的方步包括以下步驟:
首先,獲取待處理數據的組織結構,然后根據數據的組織結構與本機配置文件中已存在的標志信息進行校驗,校驗之后再與存儲中的校驗碼進行比較,以此判斷待處理的數據是否和已存數據一致。若待處理的數據和已存的數據一致則需要獲取其結構類型的數據切割器,獲得切割器后再將數據從硬盤加載到內存,傳入待處理數據;如果待處理數據和已存數據不一致,便需要獲取數據結構的數據切割器,將其傳入待處理數據。
其次,將待處理數據由數據切割器分割為多個子數據塊,并且為子數據塊生成唯一的標識符。不同的數據類型有不同的標識符,而每個數據塊經過一定的算法生成的標識符也都不相同,標識符是唯一的。提取以存儲的數據,用與處理待處理數據相同的算法獲取其標識符,校驗碼。
最后,將兩組數據的標識符和校驗碼進行對比然后判斷是否存在重復的標識符和校驗碼,如果發現有相同的標識符和校驗碼,則將待處理數據中相應的數據塊刪除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科同向信息技術有限公司,未經北京中科同向信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310278342.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





