[發明專利]一種云計算環境下的數據在線聚集方法有效
| 申請號: | 201410015579.9 | 申請日: | 2014-01-13 |
| 公開(公告)號: | CN103699696B | 公開(公告)日: | 2017-01-18 |
| 發明(設計)人: | 孟小峰 | 申請(專利權)人: | 中國人民大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京紀凱知識產權代理有限公司11245 | 代理人: | 徐寧,關暢 |
| 地址: | 100872 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 計算 環境 數據 在線 聚集 方法 | ||
技術領域
本發明涉及一種數據在線聚集方法,特別是關于一種云計算環境下的數據在線聚集方法。
背景技術
在線聚集由Hellerstein等人最早提出,最早的在線聚集研究主要關注關系數據庫中單表在線聚集的實現問題。隨后該問題在關系數據庫領域得到了一定程度的研究。Haas等人對Hellerstein的工作進行了擴展,提供了基于大樣本的置信區間和確定性置信區間的計算方法。針對多表連接的在線聚集,Haas等人給出了一系列波紋連接算法。波紋連接基于離線查詢處理中的嵌套連接和哈希連接設計,其目的是在保證增量計算的前提下盡快得到估計結果。Luo等人通過并行化采樣過程和查詢處理過程對波紋連接算法進行了改進,提高了置信區間的收斂速度。然而,當總體數據的分布情況無法得到或者內存溢出時,該算法無法給出具有統計意義的置信區間。為了解決該問題,Jermaine等人將傳統的排序-合并連接算法同波紋連接算法進行結合,并在查詢處理過程中增加了一個收縮的處理模塊用于更新估計結果。Wu等人將在線聚集問題擴展到分布式環境中,并給出了相應的統計計算方法。
上述研究工作均在關系數據庫領域進行,在云計算環境中的在線聚集實現技術目前也有部分相關工作。HOP(Hadoop?Online?Prototype)系統將Hadoop中的MapReduce(一種編程模型)處理過程流水線化,允許消費操作在生產操作完成之前對已有的數據進行處理。HOP能夠在MapReduce作業執行過程中不斷提供數據處理結果的快照,并通過作業的執行進度直接對快照進行擴展來實現對聚集結果的估計,但是沒有提供結果的置信區間。Pansare等人提出了一種基于貝葉斯理論實現在線聚集的方法,該方法考慮每個數據塊的聚集值和該數據塊處理時間的關系,將數據塊的聚集值及其調度時間和處理時間一起進行統計建模。該方法假設數據塊的處理時間越長,其聚集值也越大,然而,這個假設并不是在所有的聚集操作中均成立,而且實現方法也比較復雜。除此以外,它只解決了由一個MapReduce作業構成的單表在線聚集問題,而沒有考慮基于多個MapReduce作業的多表連接在線聚集實現。
發明內容
針對上述問題,本發明的目的是提供一種能夠實現單表和多表在線聚集的云計算環境下的數據在線聚集方法。
為實現上述目的,本發明采取以下技術方案:一種云計算環境下的數據在線聚集方法,其包括以下步驟:1)在線聚集系統中,在應用接口層設置SQL接口模塊和結果顯示模塊,在查詢處理層設置語法分析模塊和MapReduce在線化執行計劃模塊,在在線聚集處理層設置數據采樣模塊、聚集結果估算模塊和置信區間計算模塊,在數據存儲層設置若干數據存儲器;2)在應用接口層,SQL接口模塊根據用戶需求設定SQL查詢語句Q,并將查詢語句Q傳輸至查詢處理層;3)語法分析模塊對接收到的查詢語句Q進行解析,并將解析結果傳輸至MapReduce在線化執行計劃模塊;解析結果包括查詢語句Q所涉及的數據、查詢謂詞、聚集操作類型以及查詢語句Q是針對單表還是多表的查詢;如果查詢語句Q是針對單表的查詢,則MapReduce在線化執行計劃模塊啟動一個MapReduce作業,執行步驟4);如果查詢語句Q是針對多表的查詢,則MapReduce在線化執行計劃模塊啟動兩個MapReduce作業,執行步驟5);MapReduce在線化執行計劃模塊將啟動的MapReduce作業傳輸至在線聚集處理層;4)在線聚集處理層對數據存儲層的數據進行采樣,在線聚集處理層根據采樣數據對接收到的一個MapReduce作業進行處理,并將處理結果傳輸至應用接口層進行顯示;5)在線聚集處理層對數據存儲層的數據進行采樣,在線聚集處理層根據采樣數據對接收到的兩個MapReduce作業進行處理,并將處理結果傳輸至應用接口層進行顯示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民大學,未經中國人民大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410015579.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種復雜荷載試驗機
- 下一篇:目標對象的信息檢索方法及信息檢索設備
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





