[發明專利]分布式數據存儲系統中多維有序數據的存儲方法有效
| 申請號: | 201610459969.4 | 申請日: | 2016-06-22 |
| 公開(公告)號: | CN105975634B | 公開(公告)日: | 2017-10-31 |
| 發明(設計)人: | 王建民;黃向東;張博;龍明盛 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F3/06 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙)11201 | 代理人: | 廖元秋 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 數據 存儲系統 多維 有序 存儲 方法 | ||
1.一種分布式數據存儲系統中多維有序數據的存儲方法,其特征在于,該方法包括以下步驟:
1)對待存儲的由多個對象組成的多維數據進行定義,并將維度劃分為有序維度集合與無序維度集合;
設O={o1,o2,...,os}為s個待存儲對象組成的集合,Dim{D1,D2,...,Dk}為集合O中所有待存儲對象維度集合,共有k個維度,s、k均為正整數;V為集合O中所有待存儲對象數據值集合;
設M為有序維度集合,N為無序維度集合,M、N均為非負整數,則待存儲對象組成的集合O表達為多維有序數據集合的形式,如式(1)所示:
SeqData(|o1,o2,...,os|,M,N,V)(1)
2)對基于步驟1)得到的多維有序數據集合的讀取操作進行定義;
2-1)單元讀取:對Di∈Dim,通過指定每一個維度的具體值Di=di,i=1,2,...k,進行數據讀取的操作稱為單元讀取,定義單元讀取操作為:Opread;
2-2)確定順序近鄰讀取維度;對于有順序近鄰讀取需求的維度Dtarget∈M,獲取在該維度上的順序近鄰操作定義為:Opnext(Dtarget);
即對于維度Dtarget,取值為dtarget,通過指定Dtarget=l-1(l(dtarget)+1)實現順序近鄰操作,其中l為順序函數,將維度取值映射為有序數據序號,l-1則將數據序號反映射為維度取值;
2-3)確定逆序近鄰操作維度;對于有逆序近鄰讀取需求的維度Dtarget∈M,獲取在該維度上的逆序近鄰操作定義為:Oppre(Dtarget);
即對于維度Dtarget,通過指定Dtarget=l-1(l(dtarget)-1)實現逆序近鄰操作;
2-4)確定序列讀取操作;
一次序列讀取操作包含一次單元讀取操作以及q次連續的順序或逆序近鄰操作;一次序列讀取操作定義為:Opseq(Dtarget,q);
根據具體數據訪問需求,確定最終的序列讀取操作需求,即確定SeqArray=[Opseq1,Opseq2,...,Opseqt],其中Opseq是Opseq(Dtarget,q)的簡寫,表示一種序列讀取操作;SeqArray為針對具體數據訪問需求的訪問序列數組,共包括t個序列讀取操作;
2-5)統計步驟2-4)中不同序列讀取操作的使用頻率,得到與會話數組對應的使用頻率數組FreqArray=[fre1,fre2,...,fret],frei表示第i種序列讀取操作的頻率;
3)枚舉存儲方案,計算每種該存儲方案期望時間代價;
多維有序數據集合的存儲方案,即求解函數func使得對于所有Di,func(Di)=DimArray[c],c=1,2;其中,函數func表示存儲方案,c代表數據下標,1,2是數組下標的可能取值;
給定一種存儲方案func,對系統讀取時間代價進行評估,對于每一種操作,又分為兩種情況,本地讀取和異地讀取;
3-1)測量當前系統的網絡傳輸速度和磁盤讀取速度;其中Ttrans為系統網絡傳輸單個數據速度,Tread為磁盤讀取速度;
3-2)計算單元讀取時間代價;對于一次精確讀取操作Opread,計算其本地讀取時間代價如式(2)所示:
式中,|Di|為維度Di的不同值的個數;TrowLocate為行鍵在節點中定位和讀取的時間,TcolLocate為列尋址和定位時間;
對應地,如果數據異地地讀取,則增加協調者節點到數據擁有者節點的一次網絡通信,定義異地讀取時間代價如式(3)所示:
即增加一次數據網絡通信消耗;
3-3)計算順序近鄰讀取時間代價;
本地讀取時間代價如式(4)所示:
式中,Tindex為設置性能消耗,定義sign()為符號函數,sign(true)=1;sign(false)=0;
如果數據異地讀取,則其異地讀取時間代價如式(5)所示:
3-4)計算逆序近鄰讀取時間代價;
本地讀取時間代價如式(6)所示:
如果數據異地讀取,則其異地讀取時間代價如式(7)所示:
3-5)對于t個序列讀取操作,計算每一種序列讀取的時間代價;
其中,n是集群節點個數,q是該種序列讀取的連續次數;
3-6)計算給定存儲方案的期望時間代價E;
(4)重復步驟3),遍歷所有枚舉的存儲方案并計算其相應的期望時間代價,選擇期望時間代價最小的存儲方案作為最終存儲方案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610459969.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:搜索結果排序方法和裝置
- 下一篇:一種工業設計產品智能推薦方法及系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





