[發明專利]一種提高在線聚集中多表連接查詢效率的方法有效
| 申請號: | 201810649787.2 | 申請日: | 2018-06-21 |
| 公開(公告)號: | CN109062949B | 公開(公告)日: | 2021-10-01 |
| 發明(設計)人: | 宋愛波;貢歡 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/2453 | 分類號: | G06F16/2453;G06F16/2455 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 許小莉 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提高 在線 聚集 中多表 連接 查詢 效率 方法 | ||
本發明公開了一種提高在線聚集中多表連接查詢效率的方法。本發明包含步驟S1:構建索引模塊,通過混合整數線性規劃模型從歷史記錄的多表查詢中選擇合適的連接屬性,對選擇的連接屬性建立索引;步驟S2:根據步驟1中創建的索引,設計多表連接查詢算法Index Ripple Join;步驟S3:使用中心極限定理對采集的樣本進行區間估計,從而得到多表連接查詢置信區間。本發明能夠有效提高在線聚集中多表連接查詢的效率。
技術領域:
本發明涉及一種提高在線聚集中多表連接查詢效率的方法,具體涉及一種通過查找索引得到符合連接條件元組從而提高在線聚集中多表連接查詢效率的方法。
背景技術:
隨著社交網絡、物聯網、電子商務等的應用和普及,當今信息時代產生的數據相較于十年前發生爆炸性增長。企業、政府機關、科研機構每天產生的數據量非常龐大,淘寶每天產生的數據量達到7T,百度每天需要處理100PB規模的數據。如何處理如此大規模的數據從而挖掘出有用的信息,是各大公司、機構需要解決的問題。在線聚集由于不需要掃描整張表,能夠提高SQL查詢速度,因此被引入到云計算環境以提高查詢性能。在線聚集的基本執行流程是:從原始數據集中通過無放回隨機采樣得到樣本集S,根據中心極限定理對樣本集S做區間估計得到聚集結果區間,若不滿足用戶精度需求,則迭代的從原始數據集中再次采樣加入到樣本集S中,再進行區間估計,直到滿足用戶精度需求后停止程序。在線聚集適用于查詢精度要求不高的應用,如趨勢分析、評估、預測等數據分析場景中,絕對精度的查詢結果并不是必需的,近似結果對用戶而言完全可以接受。
對于在線聚集中的多表連接,Ripple Join被廣泛使用,它從R表和S表中每次通過隨機采樣,得到樣本集rn和sn,在二維矩陣中保存已采集樣本的連接結果,若不符合精度要求則迭代執行上述過程。二維矩陣存放在內存中,可能導致內存空間不足,同時RippleJoin通過隨機采樣獲得的樣本可能不符合連接條件,使得Ripple Join在執行的初期很難獲得大量的連接結果,而基于少量的連接結果后進行區間估計容易導致較大誤差,從而顯著增加Ripple Join的迭代次數,影響在線聚集多表連接執行效率。
發明內容
本發明的目的是提供一種提高在線聚集中多表連接查詢效率的方法,通過查詢索引的方式解決多表連接查詢效率低下的問題。
上述的目的通過以下技術方案實現:
一種提高在線聚集中多表連接查詢效率的方法,
步驟S1:構建索引模塊,通過混合整數線性規劃模型從歷史記錄的多表查詢中選擇合適的連接屬性,對選擇的連接屬性建立索引;
步驟S2:根據步驟1中創建的索引,設計多表連接查詢算法Index Ripple Join;
步驟S3:使用中心極限定理對采集的樣本進行區間估計,從而得到多表連接查詢置信區間。
進一步地,步驟S1中所述的選擇合適的連接屬性,對選擇的連接屬性建立索引的具體方法是:根據歷史查詢的多表查詢中出現的連接屬性,構建混合整數線性規劃模型,選擇當模型取得最優解時的連接屬性建立索引。
進一步地,所述的混合整數線性規劃模型公式是:
T=∑ipi*zi*gi (1)
約束條件公式如下:
∑iBi*zi≤C (2)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810649787.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:目標點確定、目標路徑確定方法和系統
- 下一篇:一種文本標注的方法及裝置





