[發明專利]相似性分析方法、裝置及系統有效
| 申請號: | 201210494714.3 | 申請日: | 2012-11-28 |
| 公開(公告)號: | CN103020174A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 黃焰 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 劉芳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似性 分析 方法 裝置 系統 | ||
技術領域
本發明實施例涉及數據存儲領域,尤其涉及一種相似性分析方法、裝置及系統。
背景技術
伴隨著科技的發展,社會的信息量急劇增大,需要存儲的數據量以及隨之而來的存儲容量和存儲成本的增大已成為企業需要考慮的重要難題。重復數據刪除技術通過對存儲數據中多次出現的相同數據只存儲單一實例的方式,有效降低了數據備份等場景下的存儲容量需求,節省了存儲成本。在重復數據刪除技術中,通過采用多節點并發重復數據刪除來加快重復數據刪除處理速率,提高重復數據刪除性能,已被證明是一種行之有效的方法。
多節點重復數據刪除方案中,在查詢重復塊時,每個分塊都需要查詢所有的分塊記錄以確認是否存在重復數據,導致在重復刪除數據量較大時查詢耗時很長。為了提高重復數據刪除性能,通過對文件進行相似性分析,將相似度較大的文件的每個分塊和與該文件相似度較大的分組中的各分塊進行比較,以在一個分組內進行重復數據刪除,使得查詢重復數據塊時只需要查詢分組內的分塊記錄,通過犧牲有限的重刪率達到提高重復數據刪除性能的目的。
雖然基于分組的多節點重復數據刪除減小了數據查詢的時間,但在對文件進行相似性分析確定分組時,由于需要與所有分組的指紋進行查詢匹配以確定相似度,每個文件都需要與所有分組的指紋進行匹配查詢;同時,為了保證查詢準確性,在每個文件進行相似性分析時,都需要對保存分組指紋的文件進行加鎖,導致多個節點不能并行地進行匹配查詢,成為分組多節點重復數據刪除的性能瓶頸。
發明內容
本發明實施例提供一種相似性分析方法、裝置及系統,用以解決現有的相似性分析成為分組多節點重復數據刪除的性能瓶頸的問題。
第一方面,本發明實施例提供的一種相似性分析方法,包括:
獲取待分析文件的文件指紋信息;
將攜帶所述文件指紋信息的分析請求發送給至少兩個元數據服務器MDS,以使所述至少兩個MDS分別根據所述文件指紋信息查詢本地的各文件指紋信息集,所述各文件指紋信息集分別包括所述MDS負責的各分組中的文件指紋信息;
根據各MDS返回的分析結果選擇至少一個分組,所述分析結果包括每個MDS根據本地的各文件指紋信息集查詢到的與所述文件指紋信息相似度最高的至少一個分組的組號和相似度;
將預先獲取的所述待分析文件中各數據塊的塊指紋信息發送給所述選擇的分組所屬的MDS,以使所述MDS將所述待分析文件中的各數據塊的塊指紋信息與本地的所述選擇的分組中的塊指紋信息庫進行比較,以查詢重復數據塊,所述選擇的分組中的塊指紋信息庫包括塊指紋信息。
在第一方面的第一種可能的實現方式中,所述根據各MDS返回的分析結果選擇至少一個分組,包括:
若各MDS返回的分析結果中最高的至少一個相似度高于預設閾值,則選擇所述最高的至少一個相似度對應的至少一個分組;
若各MDS返回的分析結果中的相似度均不高于所述預設閾值,則選擇至少一個預先建立的空閑的分組。
結合第一方面的第一種可能的實現方式,在第一方面的第二種可能的實現方式中,所述分析結果還包括所述各MDS的負載信息;
所述選擇至少一個預先建立的空閑的分組,包括:
選擇所屬MDS負載最小的至少一個空閑的分組。
結合第一方面或第一方面的上述幾種可能的實現方式,在第一方面的第三種可能的實現方式中,所述獲取待分析文件的文件指紋信息,之前還包括:
建立預設數量的空閑的分組;
根據預設的分配策略,將所述預設數量的空閑的分組分別分配給所述多個MDS。
第二方面,本發明實施例提供了一種相似性分析方法,包括:
接收數據重復刪除引擎DDE發送的分析請求,所述分析請求攜帶待分析文件的文件指紋信息;
查詢本地的各文件指紋信息集,所述各文件指紋信息集分別包括所負責的各分組中的文件指紋信息,獲取所述分析請求中的文件指紋信息與所負責的各分組的相似度;
將分析結果發送給所述DDE,所述分析結果包括與所述文件指紋信息相似度最高的至少一個分組的組號和相似度。
在第二方面的第一種可能的實現方式中,所述查詢本地的各文件指紋信息集,獲取所述分析請求中的文件指紋信息與所負責的各分組的相似度包括:
分別獲取各分組的各文件指紋信息與所述分析請求中的文件指紋信息的相似度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210494714.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:帶有定時加熱排污裝置的壓力管路過濾器
- 下一篇:防爆制動器監測裝置





