[發明專利]一種數據去重方法及裝置有效
| 申請號: | 201410114159.6 | 申請日: | 2014-03-25 |
| 公開(公告)號: | CN103902686B | 公開(公告)日: | 2017-11-17 |
| 發明(設計)人: | 周景才 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州三環專利商標代理有限公司44202 | 代理人: | 郝傳鑫,熊永強 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 方法 裝置 | ||
技術領域
本發明涉及計算機領域,尤其涉及一種數據去重方法及裝置。
背景技術
隨著云計算技術的應用,不同的用戶可以將各自的數據上傳到服務器上,通過云計算技術可以將原來各個相互隔離的信息孤島有機地聯系起來。但是由于不同用戶之間的數據有重復,尤其近似用戶,比如同一個領域、同一家公司、同一個部門等的用戶之間的重復數據比例更高。存儲重復數據不僅浪費存儲資源,而且會增加網絡中傳輸的數據量,容易造成網絡擁塞增加網絡運行成本。
為了減少相同數據的重復存儲,在現有技術中通過將已保存的數據按預設單位切割成相同容量的數據塊并計算各數據塊的指紋,然后將各數據塊指紋的集合作為樣本對比庫,對于待保存的數據,同樣按照預設單位切割成相同容量的數據塊,并計算每個待比較數據塊的指紋;然后將待比較數據塊的指紋分別與樣本對比庫中的指紋進行比較,如果某數據塊的指紋與樣本對比庫中的某個指紋相同,則無需保存該數據塊。這樣雖然能達到去重的效果,但是在云計算中,由于已保存的數據容量通常較大,所以對應的樣本指紋的數量和容量也比較大,舉例來說,1PB容量的數據按照4KB的容量進行切割時,對應的指紋的集合大概有5500GB,在進行比較時,通常需要將樣本對比庫中的指紋讀取到內存中,如此大容量的指紋無法放入任何一個內存中。即使有如此大容量的內存,由于比較時需要進行大量的對比也容易造成網絡擁塞,同時,網絡運行的成本也會較高。
發明內容
本發明實施例提供一種數據去重方法和裝置,以解決在保障重刪率的前提下,減小樣本對比庫容量的問題。
本發明第一方面提供了一種數據去重方法,包括:
接收用戶發送的待保存數據,按照預設單位將所述待保存數據切分成多個數據塊,并計算所述多個數據塊中的每個數據塊的指紋;
根據所述用戶的用戶特征從已保存的用戶庫中確定至少一個對比用戶,其中,所述至少一個對比用戶與所述用戶擁有至少一個相同的用戶特征;
將所述至少一個對比用戶對應的指紋作為樣本對比庫;
將所述多個數據塊中的每個待比較數據塊的指紋與所述樣本對比庫中的指紋進行比較;
存儲所述多個數據塊中的差異數據塊;其中,所述差異數據塊中的每個數據塊的指紋與所述至少一個對比用戶對應的指紋均不同。
在第一方面的第一種可能的實現方式中,所述根據用戶的用戶特征從已保存的用戶庫中確定至少一個對比用戶,包括:
根據所述用戶的用戶特征獲取所述用戶的用戶特征碼,其中,所述用戶特征碼用于表征所述用戶的用戶特征;
將所述用戶的用戶特征碼與預設掩碼進行掩碼計算,得到第一計算結果;
將所述用戶庫中其他用戶的用戶特征碼分別與所述預設掩碼進行掩碼計算,將所述其他用戶中計算結果為所述第一計算結果的用戶作為對比用戶。
結合第一方面的第一種可能的實現方式,在第二種可能的實現方式中,所述將所述至少一個對比用戶對應的指紋作為樣本對比庫,包括:
將所述其他用戶中計算結果為所述第一計算結果的所有用戶的指紋作為樣本對比庫。
結合第一方面的第一種可能的實現方式,在第三種可能的實現方式中,所述將所述至少一個對比用戶對應的指紋作為樣本對比庫,包括:
將與所述用戶掩碼計算結果相同的每個用戶根據所述每個用戶的指紋量排序得到對比用戶列表,根據指紋量的大小依次將所述對比用戶列表中的單個用戶的指紋作為樣本對比庫以便與待比較數據塊的指紋進行比較。
結合第一方面的第三種可能的實現方式,在第四種可能的實現方式中,所述將所述多個數據塊中的每個數據塊的指紋與所述樣本對比庫中的指紋進行比較;存儲所述多個數據塊中的差異數據塊,包括:
將待比較數據塊的指紋與所述用戶列表中的單個用戶的指紋生成的樣本對比庫進行比較;
若當前比較的數據塊的指紋在所述用戶列表中的當前用戶的指紋生成的樣本對比庫中不存在,且所述當前用戶在所述用戶列表中的排序高于指紋量最小的用戶,則將所述當前比較的數據塊歸類為待比較數據塊,以便將待比較數據塊的指紋與所述用戶列表中的下一個用戶的指紋生成的樣本對比庫進行比較;
若所述當前比較的數據塊的指紋在所述用戶列表中的任一單個用戶的指紋生成的樣本對比庫中都不存在,則所述當前比較的數據塊為差異數據塊,存儲所述當前比較的數據塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410114159.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





