[發明專利]一種在大數據存儲系統中進行數據混合存儲的方法及系統在審
| 申請號: | 201811006477.5 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109271103A | 公開(公告)日: | 2019-01-25 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 杜廣香 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 252659 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 存儲設備 存儲系統 大數據 數據混合 中低頻 存儲 數據項集合 訪問信息 復制 低頻設備 統計文件 數據項 閾值時 傳送 預警 統計 | ||
1.一種在大數據存儲系統中進行數據混合存儲的方法,所述方法包括:
基于當前的統計時間區間和大數據存儲系統內多個存儲設備中每個存儲設備的運行日志文件確定每個存儲設備中存儲的多個數據項的經過統計的訪問信息,根據每個存儲設備中存儲的多個數據項的經過統計的訪問信息確定每個存儲設備的訪問信息統計文件;其中所述訪問信息統計文件包括數據項統計表,所述數據項統計表包括多個數據項記錄,其中每個數據項記錄的內容為6元組<數據項的標識符、被訪問次數、統計起始時間、統計結束時間、存儲尺寸、存儲起始時間>;
對每個存儲設備的訪問信息統計文件進行解析,將當前的統計時間區間內每個存儲設備的所有數據項中被訪問次數小于低頻次數閾值Lthreshod的數據項確定為低頻數據項,確定每個存儲設備所包括的低頻數據項的低頻項數量;將多個存儲設備中低頻項數量大于低頻設備閾值的存儲設備確定為低頻存儲設備并確定大數據存儲系統中低頻存儲設備的數量;基于每個存儲設備的訪問信息統計文件確定每個存儲設備所包括的所有數據項的數據項數量TNi;其中i為自然數并且DN≥i≥1,其中DN為大數據存儲系統中所有存儲設備的總數量;
當大數據存儲系統中低頻存儲設備的數量大于系統預警閾值時,獲取大數據存儲系統的系統緩沖設備內的匹配統計文件,基于所述匹配統計文件確定系統緩沖設備內臨時數據項集合中每個臨時數據項在當前的統計時間區間內進行多次內容匹配時的內容匹配度的算術和,基于每個臨時數據項在當前的統計時間區間內的內容匹配度的算術和的降序順序對每個臨時數據項進行排序,以生成第一排序列表,
根據大數據存儲系統的系統記錄設備中的設備描述信息確定大數據存儲系統中所有存儲設備的總數量DN,在所述第一排序列表中從內容匹配度的算術和最大的臨時數據項開始并且按照內容匹配度的算術和的降序順序從所述第一排序列表選擇2×DN個臨時數據項,將所述2×DN個臨時數據項組成第一數據項集合;其中臨時數據項集合中的臨時數據項的總數大于10×DN;
按照被訪問次數的降序順序對每個存儲設備中各自的所有數據項進行排序,以生成多個第二排序列表,根據每個存儲設備所包括的所有數據項的數據項數量TNi從每個存儲設備的第二排序列表選擇多個數據項:
其中,在第i個存儲設備的第二排序列表中,從被訪問次數最大的數據項開始并且按照被訪問次數的降序順序選擇個數據項;
將在每個存儲設備的所有數據項中分別選擇的個數據項組成第二數據項集合,
其中第二數據項集合中包括個數據項;
基于每個存儲設備的訪問信息統計文件確定當前的統計時間區間內大數據存儲系統的所有數據項的被訪問次數的系統總數,基于大數據存儲系統的所有數據項的被訪問次數的系統總數TAtotal和大數據存儲系統中所有存儲設備的總數量DN確定每個存儲設備的數據項的平均被訪問次數TAaverage,其中TAaverage=TAtotal/DN;
確定第一數據項集合中每個臨時數據項在當前的統計時間區間內進行多次內容匹配時的平均內容匹配度,將第一數據項集合中每個臨時數據項的平均內容匹配度和TAaverage的乘積的2倍作為每個臨時數據項的被訪問次數;其中第一數據項集合中每個臨時數據項在當前的統計時間區間內進行多次內容匹配時的平均內容匹配度為臨時數據項在當前的統計時間區間內進行多次內容匹配時的內容匹配度的算術和與多次內容匹配的次數的比值;
將第一數據項集合和第二數據項集合進行合并以生成第三數據項集合,將第一數據項集合中的每個臨時數據項作為復制數據項并且將第二數據項集合中的每個數據項作為復制數據項,從第三數據項集合的所有復制數據項中選擇被訪問次數最大的100個數據項,由所選擇的被訪問次數最大的100個數據項組成復制數據項集合;
將所述復制數據項集合傳送給所述多個存儲設備中的每個存儲設備,并促使每個存儲設備進行處理,以實現數據混合存儲:
接收所述復制數據項集合并且將所述復制數據項集合中的所有復制數據項進行存儲;
對所存儲的所有數據項中相同的數據項進行去重處理,基于(自身的)訪問信息統計文件確定經過去重處理的所有數據項中每個數據項在當前的統計時間區間內的預定時間段內的被訪問次數;
根據每個數據項在預定時間段內的被訪問次數對所有數據項進行分組以生成預定分組數量的多個內容組,以使得每個內容組中所有數據項的總被訪問次數之間的標準差小于平衡閾值;
將存儲空間劃分為與所包括的多個內容組的數量相同并且存儲容量與相應的內容組相適配的多個存儲區域,為每個內容組分配相應的存儲區域并且將每個內容組中的所有數據項移動到相應的存儲區域內。
或者,將所述復制數據項集合傳送給所述多個存儲設備中的每個存儲設備,并促使每個存儲設備進行處理,以實現數據混合存儲:
接收所述復制數據項集合并且將所述復制數據項集合中的所有復制數據項進行存儲;
對所存儲的所有數據項中相同的數據項進行去重處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杜廣香,未經杜廣香許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811006477.5/1.html,轉載請聲明來源鉆瓜專利網。





