[發明專利]在大數據存儲的存儲設備中確定低頻數據項的方法及系統有效
| 申請號: | 201811006475.6 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109033462B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 請求不公布姓名 | 申請(專利權)人: | 廣州思貝守工程咨詢有限公司 |
| 主分類號: | G06F16/14 | 分類號: | G06F16/14;G06F16/18 |
| 代理公司: | 重慶創新專利商標代理有限公司 50125 | 代理人: | 李智祥 |
| 地址: | 510000 廣東省廣州市天河區盈*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 存儲 設備 確定 低頻 數據項 方法 系統 | ||
1.一種在用于大數據存儲的存儲設備中確定低頻數據項的方法,所述方法包括:
響應于接收到在大數據存儲系統內用于大數據存儲的多個存儲設備的每個存儲設備中確定低頻數據項的請求,將所述大數據存儲系統從任意的數據請求方所接收的新的數據訪問請求重定向到所述大數據存儲系統的系統緩沖設備而不將所接收的新的數據訪問請求發送給多個存儲設備中的相應的存儲設備,以由所述系統緩沖設備將新的數據訪問請求所包含的查詢條件的描述信息與所述系統緩沖設備的臨時數據項集合中的每個臨時數據項進行內容匹配以確定每個臨時數據項的內容匹配度,從多個臨時數據項中選擇內容匹配度大于匹配度閾值的至少一個選定的臨時數據項,將所選擇的至少一個選定的臨時數據項發送給所述新的數據訪問請求所指示的數據請求方,并且在所述系統緩沖設備的緩沖區內保存所述新的數據訪問請求;
在確定所述大數據存儲系統內的所有存儲設備中均沒有正在運行的數據訪問操作時,獲取所述大數據存儲系統內多個存儲設備中每個存儲設備的運行日志文件,并且基于當前的統計時間區間和每個存儲設備的運行日志文件確定每個存儲設備中存儲的多個數據項的經過統計的訪問信息,根據預先設定的訪問時間間隔的閾值和每個存儲設備中存儲的多個數據項的經過統計的訪問信息確定每個存儲設備的訪問信息統計文件,其中訪問時間間隔是數據項的相鄰的兩次被訪問之間的一段時間;其中所述訪問信息統計文件包括頻率統計表,所述頻率統計表包括多個頻率記錄,其中每個頻率記錄的內容為8元組數據項的標識符、被訪問次數、統計起始時間、統計結束時間、存儲尺寸、大于訪問時間間隔的閾值的次數、最大訪問時間間隔、最小訪問時間間隔;
基于所述訪問信息統計文件確定當前的統計時間區間內每個存儲設備的所有數據項中被訪問次數小于低頻次數閾值的多個預選數據項,根據所述大數據存儲系統的系統記錄設備中的設備描述信息確定每個存儲設備的總存儲容量,根據每個存儲設備的存儲信息區域中的存儲信息文件來確定每個存儲設備的空閑存儲容量,根據下面的公式來確定每個存儲設備中的每個預選數據項的低頻系數:
其中DTFi為當前存儲設備中第i個預選數據項的低頻系數、timax為當前存儲設備中第i個預選數據項的多個訪問時間間隔中的最大訪問時間間隔、timin為當前存儲設備中第i個預選數據項的多個訪問時間間隔中的最小訪問時間間隔、tibegin為當前存儲設備中第i個預選數據項的統計起始時間、tiend為當前存儲設備中第i個預選數據項的統計結束時間、C為當前存儲設備的總存儲容量、R是當前存儲設備的空閑存儲容量、UNi為當前存儲設備中第i個預選數據項的多個訪問時間間隔中的大于訪問時間間隔的閾值的次數、ANi為當前存儲設備中第i個預選數據項的被訪問次數,其中i為自然數并且PT≥i≥1,PT為當前存儲設備中預選數據項的數量并且PT≥100;以及
將每個存儲設備中的多個預選數據項中低頻系數小于低頻系數閾值的預選數據項確定為低頻數據項;
其中,當位于大數據存儲系統外部的數據管理設備需要在大數據存儲系統內的存儲設備中確定低頻數據項時,所述數據管理設備向所述大數據存儲系統發送在大數據存儲系統內用于大數據存儲的多個存儲設備的每個存儲設備中確定低頻數據項的請求;
其中將所述大數據存儲系統從任意的數據請求方所接收的新的數據訪問請求重定向到所述大數據存儲系統的系統緩沖設備而不將所接收的新的數據訪問請求發送給多個存儲設備中的相應的存儲設備包括:
以所述大數據存儲系統接收到確定低頻數據項的請求的時刻開始,將所述大數據存儲系統隨后從任意的數據請求方所接收的新的數據訪問請求重定向到所述大數據存儲系統的系統緩沖設備而不將所接收的新的數據訪問請求發送給多個存儲設備中的相應的存儲設備;
其中所述新的數據訪問請求包括查詢條件和查詢條件的描述信息,所述臨時數據項集合中包括多個臨時數據項,并且每個臨時數據項具有摘要信息,所述摘要信息用于概括地介紹臨時數據項的內容;
其中由所述系統緩沖設備將新的數據訪問請求所包含的查詢條件的描述信息與所述系統緩沖設備的臨時數據項集合中的每個臨時數據項進行內容匹配以確定每個臨時數據項的內容匹配度包括:
由所述系統緩沖設備將新的數據訪問請求所包含的查詢條件的描述信息與所述系統緩沖設備的臨時數據項集合中的每個臨時數據項的摘要信息進行基于語義內容比對的內容匹配、基于關鍵字比對的內容匹配或基于語義內容和關鍵字相結合的內容匹配以確定每個臨時數據項與所述查詢條件的內容匹配度;
其中所述匹配度閾值為60%,并且內容匹配度的范圍為[0%,100%];
其中在所述系統緩沖設備的緩沖區內保存所述新的數據訪問請求之后還包括:向所述新的數據訪問請求所指示的數據請求方發送用于表明所述大數據存儲系統暫停數據訪問和所述新的數據訪問請求已經被保存到所述系統緩沖設備的緩沖區中的響應消息,并且所述響應消息中攜帶用于表明來自數據請求方的新的數據訪問請求在所述緩沖區中的當前排隊順序的信息,其中在所述緩沖區中按照新的數據訪問請求的被保存的時間長度來確定新的數據訪問請求在所述緩沖區中的當前排隊順序,并且在當前排隊順序中按照被保存的時間長度的降序順序對新的數據訪問請求進行排序;
在將每個存儲設備中的多個預選數據項中低頻系數小于低頻系數閾值的預選數據項確定為低頻數據項之后,還包括:
將每個存儲設備的所有數據項中被訪問次數大于低頻次數閾值的2倍的數據項確定為待選數據項以獲得多個待選數據項,并由多個待選數據項構成各自的待選數據項集合,將每個存儲設備中低頻系數小于低頻系數閾值的多個低頻數據項構成各自的低頻數據項集合;
針對于多個存儲設備中的當前的存儲設備:
在當前的存儲設備的低頻數據項集合中的低頻數據項的數量小于或等于當前的存儲設備的待選數據項集合中的待選數據項的數量時,按照被訪問次數的升序順序將低頻數據項集合中的所有低頻數據項進行排序以生成第一排序列表,將第一排序列表中排序為第1位的低頻數據項作為當前低頻數據項,
6.1、基于當前低頻數據項的摘要信息與待選數據項集合中每個待選數據項的摘要信息進行內容匹配,以確定當前低頻數據項與每個待選數據項的內容匹配度;
6.2、將待選數據項集合的所有待選數據項中與當前低頻數據項的內容匹配度最大的待選數據項和當前低頻數據項進行數據項組合,以形成一個新的數據項,將新的數據項保存到當前的存儲設備的空閑存儲空間中;
6.3、從所述待選數據項集合中刪除與當前低頻數據項的內容匹配度最大的待選數據項;
6.4、確定所述第一排序列表中是否存在排序在當前低頻數據項后1位的低頻數據項,如果存在,則進行步驟6.5;如果不存在,則結束;
6.5、將所述第一排序列表中排序在當前低頻數據項后1位的低頻數據項選擇作為當前低頻數據項,進行步驟6.1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州思貝守工程咨詢有限公司,未經廣州思貝守工程咨詢有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811006475.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





