[發明專利]一種基于Storm的分布式流數據存儲與查詢方法有效
| 申請號: | 201910026601.2 | 申請日: | 2019-01-11 |
| 公開(公告)號: | CN109726225B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 蔡瑞初;林峰極;郝志峰;王立;黃澤林;陳炳豐;溫雯;王麗娟 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/22;G06F16/182 |
| 代理公司: | 廣州市紅荔專利代理有限公司 44214 | 代理人: | 吳偉文 |
| 地址: | 510000 *** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 storm 分布式 數據 存儲 查詢 方法 | ||
1.一種基于Storm的分布式流數據存儲與查詢方法,其特征在于:通過在接收分布式流數據時實時建立若干隔離范圍的B+Tree索引,達到閾值后存儲到分布式文件系統,并在查詢時進行查詢分解,并行處理不同范圍下的子查詢,保持負載均衡,完成后合并返回實時存儲結果,實現高吞吐量的流數據插入和查詢,具體包括以下步驟:
S1)、接收源數據并分發給下游單元構建索引結構;
S2)、將索引結構壓縮為數據塊并寫入分布式文件存儲系統CEPHFS;
S3)、基于查詢條件和數據塊信息將查詢分解為若干獨立的子查詢;
S4)、通過訪問分布式文件存儲系統CEPHFS分發給下游獨立的查詢處理單元的子查詢;具體包括以下步驟:
S401)、子查詢服務器Subquery?Server并行讀取分布式文件存儲系統CephFs中與子查詢對應的數據塊,先讀取數據塊中索引結構的模板部分,得到葉節點對于所有葉節點的相對offset和分組壓縮后的offset,計算得到可能包含目標key范圍的一系列葉子節點offset;
S402)、基于offset讀取數據塊文件中索引結構的葉節點部分,通過Snappy算法解壓得到的葉節點分組數據塊字節,反序列化為葉節點,并做時間范圍和等值條件上的過濾;
S403)、對過濾后的一系列數據元祖進行aggregate操作,序列化后發送到查詢調度器query?dispatcher;
S5)、接收返回的子查詢結果并合并返回給用戶。
2.根據權利要求1所述的一種基于Storm的分布式流數據存儲與查詢方法,其特征在于:步驟S1)中,流數據存儲系統接收的每個源數據為數據元祖,定義為d={dk,dt,dr},其中,dk是元祖的主鍵,dt是時間屬性,dr是元祖的其他屬性值,K和T定義了一個主鍵和時間域的二維空間D=(K,T);主鍵范圍固定,時間范圍不斷增加,主鍵K區間表示為K(k-,k+),時間域T區間表示為T(t-,t+),根據兩個區間建立唯一的矩形r≤K,T≥{(k,t)∈R|k∈K,t∈T}。
3.根據權利要求2所述的一種基于Storm的分布式流數據存儲與查詢方法,其特征在于:將矩形r≤K,T≥{(k,t)∈R|k∈K,t∈T}范圍內的數據元組寫入唯一對應的模板B+Tree中,key作為索引,內存中達到閾值chunkSize大小的模板B+Tree以chunk形式存儲到分布式文件系統,chunk由key數組和數據數組組成,key數組存儲順序的key值,包括一個指向數據數組的偏移量。
4.根據權利要求3所述的一種基于Storm的分布式流數據存儲與查詢方法,其特征在于:基于二維空間D=(K,T),流數據存儲系統的查詢條件定義為一個三元組q={Kq,Tq,fq},Kq,Tq是在主鍵和時間域上的條件選擇范圍,查詢區間切分為一個r≤K,T≥{(k,t)∈R|k∈Kq,t∈Tq},fq:t->{true,false}是用戶自定義的條件過濾函數,用來判斷是否滿足用戶的選擇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910026601.2/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





