[發明專利]一種實現重復數據數據刪除的方法和系統無效
| 申請號: | 200910136595.2 | 申請日: | 2009-05-08 |
| 公開(公告)號: | CN101882141A | 公開(公告)日: | 2010-11-10 |
| 發明(設計)人: | 張慶敏;胡剛;謝海威;郭棟 | 申請(專利權)人: | 北京眾志和達信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F11/14 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 重復 數據 刪除 方法 系統 | ||
1.一種實現重復數據數據刪除的方法,其特征在于,主要步驟包括:
通過simhash(相似性哈希)算法計算數據的相似度;
通過相似度定位存儲位置,把相似度計入索引庫;
把數據寫入數據倉庫;
如果有相同的相似度的數據進來的話,把數據倉庫中對應的數據提取出來,然后進行二進制比對;
如果相同則記錄索引,如果不同則記錄不同的數據部分。
2.根據權利要求1所述的方法,其特征在于,所述方法按照一定的格式記錄數據結構,通過數據指紋加數據對比的方式實現數據的準確性和一致性。
3.根據權利要求1所述的方法,其特征在于,所述方法基于相似性哈希算法理論,利用二進制數據對比保證數據一致性。
4.一種實現重復數據數據刪除的系統,其特征在于,所述系統包括:相似度標示庫(BitMap)、數據偏移的標示庫和數據倉庫(LBAMap),記錄原始數據的存儲庫(Resp)。其中:
所述相似度標示庫,用來標示相似度的值是否存在,所有的相似度的值都可以在bitmap中找到一個固定的標示位,如果該標示位為1,則表示有同樣相似度的數據出現過,可以進行數據縮減;
所述數據偏移的標示庫,用來表示數據在倉庫(resp)中的偏移,LBAMap中記錄的LBA和BitMap中標示位相對應;
所述數據倉庫,記錄原始數據的存儲庫,其地址偏移在LBAMap中記錄。
5.根據權利要求4所述的系統,其特征在于,所述相似度標示庫中的數據標示,通過二維座標定位,可以快速的進行相似度定位驗證。
6.根據權利要求4所述的系統,其特征在于,所述數據偏移的標示庫中的相似度數據偏移定位也是通過二維坐標定位,可以迅速的找到相似度對應的數據偏移。
7.根據權利要求4所述的系統,其特征在于,所述數據倉庫,記錄原始數據的存儲庫中的數據按照數據源特征,順序寫入,這樣在讀取的時可以保證數據順序讀取,保證了系統的性能。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京眾志和達信息技術有限公司,未經北京眾志和達信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910136595.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:票證閱讀裝置
- 下一篇:一種帶身份逐次認證和日志記錄功能的移動存儲裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





