[發明專利]數據去重的收斂分塊方法及裝置有效
| 申請號: | 201611041876.6 | 申請日: | 2016-11-21 |
| 公開(公告)號: | CN106610794B | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 夏文;付忞;吳大立;古亮 | 申請(專利權)人: | 深信服科技股份有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 收斂 分塊 方法 裝置 | ||
本發明公開了一種數據去重的收斂分塊方法。所述方法包括以下步驟:記錄數據流的起始位置為一個分塊位置,并使滑動窗口從所述起始位置開始逐步向前移動;當所述滑動窗口每移動一步后,判斷所述滑動窗口所在的當前位置是否是所述數據流的結束位置;若否,則根據當前分塊的長度,動態選擇判斷條件判斷所述當前位置是否為分塊位置。本發明還公開了一種數據去重的收斂分塊裝置。本發明在分塊時通過引入所述當前分塊的長度作為分塊參數,動態地選擇放寬或者緊縮分塊判斷條件,控制了數據塊的平均塊長,也減少了數據塊的總數,提高了去重分塊效率。
技術領域
本發明涉及計算機領域,尤其涉及存儲系統數據去重的收斂分塊方法及裝置。
背景技術
目前數據流去重領域采取分塊獲取哈希值進行比對判斷數據流是否重復,在分塊后平均塊長越大,數據流去重的粒度也就越大,去重率下降;平均塊長越小,去重效率低。而目前廣泛采用的基于內容分塊方法采用的是逐個字節滑動窗口,然后計算和判斷窗口內容哈希值的方法,由于基于內容分塊算法中哈希值的隨機性特征,導致分塊后產生的塊長數量與塊長成指數分布:既有非常多的超小的數據塊和超大的數據塊;其中分塊出非常多的小的數據塊,會導致分塊的數據塊的總數很大,從而導致計算和判斷窗口內容哈希值的次數增加,降低了分塊效率。
發明內容
本發明的主要目的在于提供一種數據去重的收斂分塊方法,旨在控制超小的數據塊和超大的數據塊的數量的同時控制數據塊的總數,提高分塊效率。
為實現上述目的,本發明提供的一種數據去重的收斂分塊方法包括以下步驟:
記錄數據流的起始位置為一個分塊位置,并使滑動窗口從所述起始位置開始逐步向前移動;
當所述滑動窗口每移動一步后,判斷所述滑動窗口所在的當前位置是否是所述數據流的結束位置;
若否,則根據當前分塊的長度,動態選擇判斷條件判斷所述當前位置是否為分塊位置,如果所述當前位置是分塊位置則記錄所述當前位置為分塊位置,并使所述滑動窗口向前移動一步,所述當前分塊為所述滑動窗口當前位置對應所述數據流的位置到所述數據流的上一個分塊位置之間的數據塊;
當所述滑動窗口所在的當前位置是所述數據流的結束位置時,則記錄所述結束位置為一個分塊位置,并結束分塊操作。
優選地,所述當所述滑動窗口每移動一步后,所述滑動窗口所在的當前位置不是所述數據流的結束位置時,根據當前分塊的長度,動態選擇判斷條件判斷所述當前位置是否為分塊位置,如果所述當前位置是分塊位置則記錄所述當前位置為分塊位置,并使所述滑動窗口向前移動一步包括:
判斷所述當前分塊的長度是否小于標準預設長度;
若是,則使用緊縮分塊條件判斷所述當前位置是否為分塊位置,如果所述當前位置是分塊位置則記錄所述當前位置為分塊位置,并使所述滑動窗口向前移動一步;
若否,則使用放寬分塊條件來判斷所述當前位置是否為分塊位置,如果所述當前位置是分塊位置則記錄所述當前位置為分塊位置,并使所述滑動窗口向前移動一步。
優選地,所述當前分塊的長度小于標準預設長度時,使用緊縮分塊條件判斷所述當前位置是否為分塊位置,如果所述當前位置是分塊位置則記錄所述當前位置為分塊位置,并使所述滑動窗口向前移動一步包括:
獲取用于哈希匹配運算的預設位數,并設置根據所述滑動窗口內的數據計算出的哈希值中比所述預設位數多的位數為對比值;
判斷所述對比值與預設哈希值是否匹配;
若是,則記錄所述當前位置為分塊位置,并使所述滑動窗口向前移動一步;
若否,則使所述滑動窗口向前移動一步。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深信服科技股份有限公司,未經深信服科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611041876.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:超融合系統的緩存數據管理方法及裝置
- 下一篇:一種印刷文件的處理方法及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





