[發(fā)明專利]重復(fù)數(shù)據(jù)刪除系統(tǒng)中基于強化學(xué)習(xí)的指紋索引預(yù)取方法在審
| 申請?zhí)枺?/td> | 201910852882.7 | 申請日: | 2019-09-10 |
| 公開(公告)號: | CN110569245A | 公開(公告)日: | 2019-12-13 |
| 發(fā)明(設(shè)計)人: | 徐光平;范浩;毛群芳;薛彥兵;張樺 | 申請(專利權(quán))人: | 天津理工大學(xué) |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/215 |
| 代理公司: | 12002 天津佳盟知識產(chǎn)權(quán)代理有限公司 | 代理人: | 李益書 |
| 地址: | 300384 天津市西青*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分段 數(shù)據(jù)流 強化學(xué)習(xí) 指紋索引 數(shù)據(jù)段 預(yù)取 重復(fù)數(shù)據(jù)刪除系統(tǒng) 上下文信息 存儲系統(tǒng) 反饋機制 關(guān)聯(lián)關(guān)系 緩存機制 緩存算法 設(shè)計數(shù)據(jù) 數(shù)據(jù)分段 索引結(jié)構(gòu) 訓(xùn)練數(shù)據(jù) 優(yōu)化數(shù)據(jù) 動態(tài)的 自適應(yīng) 映射 多臂 構(gòu)建 反饋 | ||
一種重復(fù)數(shù)據(jù)刪除系統(tǒng)中基于強化學(xué)習(xí)的指紋索引預(yù)取方法,利用數(shù)據(jù)流的上下文信息,提取數(shù)據(jù)流分段的特征,通過反饋機制建立特征值和數(shù)據(jù)流分段的映射關(guān)聯(lián)關(guān)系,構(gòu)建高效的索引結(jié)構(gòu);用強化學(xué)習(xí)訓(xùn)練數(shù)據(jù)段之間的相似性,對每一個新的數(shù)據(jù)段,用多臂老虎機模型對當(dāng)前反饋最好的數(shù)據(jù)分段和未知的分段進(jìn)行權(quán)衡比較,動態(tài)的選擇一個數(shù)據(jù)段進(jìn)行預(yù)取;優(yōu)化數(shù)據(jù)分段的緩存機制,設(shè)計數(shù)據(jù)指紋索引的自適應(yīng)緩存算法,提高了存儲系統(tǒng)的重刪效率。
技術(shù)領(lǐng)域
本發(fā)明屬于計算機存儲技術(shù)領(lǐng)域,涉及一種基于強化學(xué)習(xí)的指紋索引預(yù)取方法。當(dāng)今信息世界的數(shù)據(jù)量呈爆炸式增長,有效地分析和管理這些數(shù)據(jù)成為當(dāng)前大數(shù)據(jù)時期海量存儲系統(tǒng)技術(shù)領(lǐng)域所關(guān)心的重點內(nèi)容。特別是,數(shù)據(jù)中心作為大數(shù)據(jù)存儲和大數(shù)據(jù)分析的基礎(chǔ)支撐,通過虛擬化技術(shù)為各種應(yīng)用提供高效可靠的存儲和計算服務(wù)。本發(fā)明所提出的方法將針對提高數(shù)據(jù)資源的高效存儲。
背景技術(shù)
重復(fù)數(shù)據(jù)刪除技術(shù)作為一種新型的數(shù)據(jù)縮減技術(shù),通過在數(shù)據(jù)流中發(fā)現(xiàn)和去除重復(fù)的內(nèi)容來提高數(shù)據(jù)的存儲能力以及傳輸效率,這也稱為數(shù)據(jù)去重或數(shù)據(jù)重刪技術(shù)。一般的處理過程是:首先將數(shù)據(jù)文件分割成一組數(shù)據(jù)塊,為每個數(shù)據(jù)塊計算指紋,然后進(jìn)行指紋索引的查找,匹配則表示該數(shù)據(jù)塊為重復(fù)數(shù)據(jù)塊,僅存儲數(shù)據(jù)塊索引號,否則則表示該數(shù)據(jù)塊是一個新的唯一塊,對數(shù)據(jù)塊進(jìn)行存儲并創(chuàng)建相關(guān)元信息。
對于數(shù)據(jù)量非常大的重刪系統(tǒng)而言,數(shù)據(jù)塊的指紋索引是重復(fù)數(shù)據(jù)檢測的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)。早期的重刪系統(tǒng)將所有數(shù)據(jù)塊指紋索引全部存儲在內(nèi)存中,便于快速完全的識別重復(fù)數(shù)據(jù)。但隨著數(shù)據(jù)量的爆炸式增長,數(shù)據(jù)塊指紋的數(shù)量會變得非常龐大,而指紋索引的大小也急劇增加,難以在內(nèi)存中全部存放,導(dǎo)致需要頻繁的訪問低速率的磁盤來查詢指紋索引。例如,假設(shè)使用平均大小為8KB的數(shù)據(jù)塊和SHA-1安全加密哈希算法,那么100TB的數(shù)據(jù)量將產(chǎn)生250GB的數(shù)據(jù)塊指紋,這么龐大的指紋量在內(nèi)存無法完全存儲。由于隨機訪問磁盤的速率遠(yuǎn)低于內(nèi)存訪問速率,導(dǎo)致指紋索引的查找非常緩慢,頻繁的訪問磁盤上的指紋索引會使系統(tǒng)吞吐量相當(dāng)?shù)停蟠蠼档土讼到y(tǒng)的吞吐量,從而形成了磁盤訪問的性能瓶頸。因此,這成為大規(guī)模數(shù)據(jù)重刪系統(tǒng)中迫切需要解決的難題。
為了解決該性能瓶頸,已有的研究已經(jīng)提出了多種解決方法,主要基于局部性和基于相似性。這些方法主要通過將一些強烈相關(guān)聯(lián)的小文件進(jìn)行合并,將大文件進(jìn)行分割,以挖掘更多的相似性,同時利用數(shù)據(jù)流的局部性對相似檢測進(jìn)行補充,解決相似性未檢測出的數(shù)據(jù)塊,利用兩種策略的合理結(jié)合來提高性能。從指紋索引預(yù)取上看,很大程度上依賴于局部性,可以利用存儲流數(shù)據(jù)局部性或者備份流局部性進(jìn)行優(yōu)化。因此,重刪系統(tǒng)的指紋索引組織方法是提高重刪系統(tǒng)性能和重刪率的關(guān)鍵。
為此,本發(fā)明針對重復(fù)數(shù)據(jù)檢測中指紋索引訪問的磁盤瓶頸和數(shù)據(jù)恢復(fù)中數(shù)據(jù)碎片化等關(guān)鍵問題,提出新型的自適應(yīng)方法,并改進(jìn)數(shù)據(jù)緩存機制,提高數(shù)據(jù)存儲效率和恢復(fù)性能,為增強數(shù)據(jù)中心數(shù)據(jù)存儲的服務(wù)質(zhì)量提供技術(shù)保障。
發(fā)明內(nèi)容
本發(fā)明的目的是解決現(xiàn)有技術(shù)存在的指紋索引組織管理缺少適應(yīng)性的問題,提出一種重復(fù)數(shù)據(jù)刪除系統(tǒng)中基于強化學(xué)習(xí)的指紋索引預(yù)取方法。本發(fā)明利用強化學(xué)習(xí)和局部性結(jié)合互補的方法,通過反饋激勵,增強指紋與預(yù)取單元之間的關(guān)聯(lián)性,動態(tài)調(diào)整緩存預(yù)取來提高重刪系統(tǒng)的性能。基于強化學(xué)習(xí)的指紋索引預(yù)取方法具有更好的重刪率和低內(nèi)存占用,且能適用于不同的數(shù)據(jù)流,同時指紋索引也能適應(yīng)系統(tǒng),更具有靈活性。
本發(fā)明的技術(shù)方案
一種重復(fù)數(shù)據(jù)刪除系統(tǒng)中基于強化學(xué)習(xí)的指紋索引預(yù)取方法。如圖1,該方法具體包含以下的主要內(nèi)容:
第1、依據(jù)數(shù)據(jù)流的字節(jié)內(nèi)容,將輸入的數(shù)據(jù)流劃分成各個可變長的數(shù)據(jù)段
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津理工大學(xué),未經(jīng)天津理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910852882.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡(luò)數(shù)據(jù)流識別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設(shè)備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲介質(zhì)
- 一種數(shù)據(jù)流類型識別模型更新方法及相關(guān)設(shè)備
- 學(xué)習(xí)裝置和學(xué)習(xí)方法
- 一種人工深度情感博弈強化學(xué)習(xí)的智能發(fā)電控制方法
- 用于強化學(xué)習(xí)的方法和設(shè)備
- 一種深度強化學(xué)習(xí)模型的組合方法、裝置及計算機設(shè)備
- 基于時空強化學(xué)習(xí)的跨模態(tài)視頻時刻定位方法
- 基于深度強化學(xué)習(xí)的寬帶無線通信自主選頻方法及系統(tǒng)
- 基于人工智能深度強化學(xué)習(xí)的航班艙位控制方法
- 面向深度強化學(xué)習(xí)對抗攻擊的模型增強防御方法
- 組件化的強化學(xué)習(xí)模型處理方法、系統(tǒng)、設(shè)備和存儲介質(zhì)
- 基于強化學(xué)習(xí)的智能決策方法及系統(tǒng)





