[發明專利]一種重復數據刪除方法和裝置有效
| 申請號: | 201410101736.8 | 申請日: | 2014-03-18 |
| 公開(公告)號: | CN104933010B | 公開(公告)日: | 2019-02-19 |
| 發明(設計)人: | 張亮;陸承濤;劉屹;葛雄資;吳俊 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/00 | 分類號: | G06F17/00;G06F9/44 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 重復 數據 刪除 方法 裝置 | ||
本發明公開了一種重復數據刪除方法和裝置,應用于數據處理技術領域。本發明中通過處理器調用存儲器中儲存的程序,將待處理數據劃分成多個數據流,這樣硬件加速器就可以同時分別計算這些數據流所包括的數據塊的標識信息,然后再由處理器根據這些標識信息進行重復數據刪除處理。由于本發明中重復數據刪除裝置可以將待處理數據劃分成多個數據流,進而并行對這些數據流進行重復數據刪除的處理,可以提高重復數據刪除的效率;另外,本發明中,在實現重復數據刪除過程中的部分功能時采用硬件結構來實現,而不是通過調用程序的軟件實現,可以有效地提高重復數據刪除流程的效率。
技術領域
本發明涉及數據處理技術領域,特別涉及重復數據刪除方法和裝置。
背景技術
目前,網絡中的數據總量呈現指數級增長,這不僅需要耗費越來越多的網絡帶寬傳輸數據,同時還需占用巨大的數據存儲空間。為降低計算機數據存儲系統和計算機網絡的總體擁有成本(英文:Total Cost of Ownership,縮寫:TCO),企業紛紛開始采用重復數據刪除技術。
重復數據刪除(Data deduplication)技術目前已成為計算機系統領域的一項主流且極為重要的技術。其工作原理為從數據流中識別出重復數據,只保留重復數據的一個備份,刪除其它冗余數據,在刪除重復數據的位置以指針引用,從而節約大量的數據存儲空間或網絡帶寬。如何快速進行重復數據刪除是一個比較重要的問題。
發明內容
本發明提供重復數據刪除方法和裝置,提高重復數據刪除的效率。
本發明第一方面提供一種重復數據刪除裝置,包括通過總線連接的處理器、存儲器和硬件加速器,其中:
所述存儲器,用于儲存用于數據分類的第一程序,及用于數據去重的第二程序;
所述處理器,用于調用所述存儲器中儲存的第一程序,將待處理數據劃分為N個數據流,并通過N個線程分別將所述N個數據流傳送給所述硬件加速器;所述N為大于1的正整數;
所述硬件加速器,用于分別計算所述N個數據流中所包括的數據塊的標識信息;
所述處理器,還用于調用所述存儲器中儲存的第二程序,根據所述硬件加速器計算的數據塊的標識信息執行重復數據刪除處理。
本發明第一方面的第一種可能實現方式中:
所述處理器,具體用于調用所述存儲器中儲存的第一程序后,根據如下信息中的至少一種將所述待處理數據劃分為N個數據流:應用端口號,文件類型和應用類型。
結合本發明第一方面或第一方面的第一種可能實現方式,在本發明第一方面的第二種可能實現方式中,所述硬件加速器包括:N個原始數據緩沖區、數據分片模塊和N個結果數據緩沖區;
所述N個原始數據緩沖區,用于分別緩沖所述處理器傳送的N個數據流;
所述數據分片模塊,用于分別對所述N個數據流進行分片得到每個所述數據流所包括的數據塊,并分別計算每個數據塊的標識信息;
所述N個結果數據緩沖區,用于分別緩沖所述數據分片模塊計算的N個數據流所包括的數據塊的標識信息。
結合本發明第一方面第二種可能實現方式,在本發明第一方面的第三種可能實現方式中,所述數據分片模塊具體包括:確定子模塊,第一數據分片子模塊以及第二數據分片子模塊,其中:
所述確定子模塊,用于確定對每個數據流在執行重復數據刪除處理時所需要的數據塊的大小,并根據所述對每個數據流在執行重復數據刪除處理時所需要的數據塊的大小,將所述N個數據流分別發送給所述第一數據分片子模塊或所述第二數據分片子模塊;
所述第一數據分片子模塊,用于對接收的數據流進行分片得到所述數據流所包括的數據塊,使得每個數據塊的大小為2的n次方,并分別計算所述數據流的每個數據塊的標識信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410101736.8/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





