[發(fā)明專利]提高線上重復刪除效率的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310113525.1 | 申請日: | 2013-04-03 |
| 公開(公告)號: | CN103365954B | 公開(公告)日: | 2018-01-12 |
| 發(fā)明(設計)人: | D·M·巴爾德溫;N·P·博塞爾;J·T·奧爾森;S·R·派迪爾 | 申請(專利權)人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所11038 | 代理人: | 黨建華 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 提高 線上 重復 刪除 效率 方法 系統(tǒng) | ||
技術領域
本發(fā)明一般涉及計算系統(tǒng),更具體地,涉及提高線上(in-line)重復刪除效率。
背景技術
在當今社會,計算機系統(tǒng)是十分普及的。計算機系統(tǒng)遍布于工作場所、家庭或學校中。計算機系統(tǒng)可包括數據存儲系統(tǒng)或盤存儲系統(tǒng),以處理和存儲數據。一種這樣的處理是數據重復刪除。數據重復刪除指的是減少和/或消除冗余數據。在數據重復刪除處理中,減少或消除數據的重復復制,從而分別留下最小量的冗余復制或數據的單個復制。使用重復刪除處理提供各種益處,諸如減少需要的存儲容量和減少對于網絡帶寬的需求。由于這些和其它益處,近年來在計算存儲系統(tǒng)中作為十分重要的技術領域出現(xiàn)了重復刪除。
發(fā)明內容
伴隨用戶可在存儲云服務內的存儲空間上擁有、創(chuàng)建、修改和/或刪除容器和對象的存儲云服務的出現(xiàn),對于HTTP上的存儲空間的在線訪問明顯增加。這種存儲云服務的用戶一般借助于由存儲云服務提供商顯露的應用編程界面(API)在云存儲空間上執(zhí)行這些操作。雖然對用戶顯露API十分有幫助,但是,在云存儲服務上執(zhí)行操作的API的用戶在數據重復刪除方面向服務提供商提出了另外的問題。因此,存儲云服務提供商需要通過使用重復刪除技術減少存儲云服務空間的消耗。
各種實施例提供在計算環(huán)境中提高線上重復刪除效率的方法。一種方法包括:通過處理器裝置在計算環(huán)境中在第n次迭代中對于來自從請求重復刪除(例如,線上重復刪除)的對象提取的固定尺寸數據塊的數據采樣計算散列值。該方法還包括:對于第n次迭代中的每一次,使在第n個散列索引表中對于來自固定尺寸數據塊的數據采樣計算的散列值與存儲部件中的存在的對象的相應的散列值匹配。第n個散列索引表是對于固定數據塊的數據采樣的每一個構建的。在檢測到在匹配過程中對于來自固定尺寸數據塊的數據采樣的每一個計算的散列值不匹配的情況下,離開第n個散列索引表。不匹配被確定為是唯一對象并被存儲。當在對象存儲部件中創(chuàng)建對象時,用狀態(tài)“成功”響應客戶機。作為離線后處理的一部分,計算整個對象的散列值。用計算的對象的散列值和計算的唯一對象的散列值更新主散列索引表。并且,在離線處理中,用來自新唯一對象的固定尺寸數據塊的數據采樣的第n次迭代上的散列值更新第n個索引表。
各種實施例提供在計算環(huán)境中提高線上重復刪除效率的系統(tǒng)。一種系統(tǒng)包括可在計算環(huán)境中操作的處理器裝置。在一個實施例中,處理器裝置被配置為在第n次迭代中對于來自從請求線上重復刪除的對象提取的固定尺寸數據塊的數據采樣計算散列值。對于第n次迭代中的每一次,處理器進一步被配置為使在第n個散列索引表中來自固定尺寸數據塊的數據采樣的散列值與存儲部件中的存在的對象的相應的散列值匹配。第n個散列索引表是對于來自固定數據塊的數據采樣的每一個構建的。在檢測到在匹配過程中對于來自固定尺寸數據塊的數據采樣的每一個計算的散列值不匹配時,離開第n個散列索引表。不匹配被確定為是唯一對象并被存儲。計算整個對象的散列值。用計算的對象的散列值和計算的唯一對象的散列值更新主散列索引表。
還提供包括在計算環(huán)境中提高線上重復刪除效率的計算機程序產品的物理計算機存儲介質(例如,具有一個或多個導線的電氣連接、便攜式計算機盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦除可編程只讀存儲器(EPROM或快擦寫存儲器)、光纖、便攜式緊致盤只讀存儲器(CD-ROM)、光學存儲裝置、磁存儲裝置或以上的任意適當的組合)。一種物理計算機存儲介質包括用于通過處理器裝置在計算環(huán)境中在第n次迭代中對于來自從請求線上重復刪除的對象提取的固定尺寸數據塊的數據采樣計算散列值的計算機代碼。物理計算機存儲介質還包括:對于第n次迭代中的每一次,使在第n個散列索引表中對于來自固定尺寸數據塊的數據采樣計算的散列值與存儲部件中的存在的對象的相應的散列值匹配的計算機代碼。第n個散列索引表是對于固定數據塊的數據采樣的每一個構建的。在檢測到在匹配過程中對于來自固定尺寸數據塊的數據采樣的每一個計算的散列值不匹配時,離開第n個散列索引表。不匹配被確定為是唯一對象并被存儲。計算整個對象的散列值。用計算的對象的散列值和計算的唯一對象的散列值更新主散列索引表。
附圖說明
為了使得能夠更容易理解本發(fā)明的優(yōu)點,參照在附圖中示出的具體實施例,更具體地描述上面簡要描述的本發(fā)明。應當理解,這些附圖僅示出本發(fā)明的典型的實施例,因此不應被視為其范圍的限制,然后,通過使用附圖通過附加的特征和細節(jié)描述和解釋本發(fā)明,其中,
圖1是示出可實現(xiàn)本發(fā)明的方面的具有示例性存儲裝置的計算機存儲環(huán)境的框圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業(yè)機器公司,未經國際商業(yè)機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310113525.1/2.html,轉載請聲明來源鉆瓜專利網。





