[發(fā)明專利]數(shù)據(jù)流θ連接優(yōu)化方法、系統(tǒng)、終端以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110331197.7 | 申請日: | 2021-03-26 |
| 公開(公告)號: | CN112948442B | 公開(公告)日: | 2022-06-21 |
| 發(fā)明(設計)人: | 王洋;吳嘉澍;須成忠 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/2453;G06F16/27 |
| 代理公司: | 深圳市科進知識產(chǎn)權代理事務所(普通合伙) 44316 | 代理人: | 魏毅宏 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數(shù)據(jù)流 連接 優(yōu)化 方法 系統(tǒng) 終端 以及 存儲 介質(zhì) | ||
1.一種數(shù)據(jù)流θ連接優(yōu)化方法,其特征在于,該方法包括如下步驟:
a.根據(jù)θ條件對兩個數(shù)據(jù)流進行第一次預過濾;所述預過濾是指過濾掉不可能滿足θ條件的數(shù)據(jù)流的分區(qū);
b.對第一次預過濾后的兩個數(shù)據(jù)流根據(jù)分區(qū)數(shù)及最大最小值分別計算分區(qū)標記,并將兩個數(shù)據(jù)流的分區(qū)標記進行聯(lián)合,得到聯(lián)合分區(qū)標記,根據(jù)所述聯(lián)合分區(qū)標記進行聯(lián)合分區(qū);
c.根據(jù)θ條件對上述聯(lián)合分區(qū)后的兩個數(shù)據(jù)流進行第二次預過濾;所述第二次預過濾是指過濾掉不可能滿足θ條件的數(shù)據(jù)流的分區(qū);
d.分別計算第二次預過濾后數(shù)據(jù)流的平均分區(qū)尺寸,對于分區(qū)尺寸大于平均分區(qū)尺寸的分區(qū)進行重分區(qū);
e.對重分區(qū)后的兩數(shù)據(jù)流進行笛卡爾積操作,得到數(shù)據(jù)流θ連接的結(jié)果。
2.如權利要求1所述的方法,其特征在于,所述的步驟b包括:
在計算完兩個數(shù)據(jù)流分別的分區(qū)標記后,將兩個數(shù)據(jù)流計算得出的分區(qū)標記進行合并以得到聯(lián)合分區(qū)標記,并利用所述聯(lián)合分區(qū)標記分別對兩個數(shù)據(jù)流進行更為細化的分區(qū)。
3.如權利要求2所述的方法,其特征在于,所述的平均分區(qū)尺寸由下述公式計算得到:
其中,average_partition_size為該數(shù)據(jù)流的平均分區(qū)大小,number_of_elements_in_stream為該數(shù)據(jù)流處于當前處理窗口中的數(shù)據(jù)量,number_of_partitions為該數(shù)據(jù)流由聯(lián)合分區(qū)產(chǎn)生的分區(qū)數(shù)。
4.如權利要求3所述的方法,其特征在于,所述重分區(qū)的分區(qū)數(shù)由下述公式計算得到:
其中,repartition_number為對過載分區(qū)進行重分區(qū)的重分區(qū)數(shù),oversized_partition_size為過載的分區(qū)的大小,average_partition_size為平均分區(qū)大小,上方括號為向上取整符號。
5.一種數(shù)據(jù)流θ連接優(yōu)化系統(tǒng),其特征在于,該系統(tǒng)包括預過濾模塊、聯(lián)合分區(qū)模塊、重分區(qū)模塊、處理模塊,其中:
所述預過濾模塊用于根據(jù)θ條件對兩個數(shù)據(jù)流進行第一次預過濾;所述預過濾是指過濾掉不可能滿足θ條件的數(shù)據(jù)流的分區(qū);
所述聯(lián)合分區(qū)模塊用于對第一次預過濾后的兩個數(shù)據(jù)流根據(jù)分區(qū)數(shù)及最大最小值分別計算分區(qū)標記,并將兩個數(shù)據(jù)流的分區(qū)標記進行聯(lián)合,得到聯(lián)合分區(qū)標記,根據(jù)所述聯(lián)合分區(qū)標記進行聯(lián)合分區(qū);
所述預過濾模塊還用于根據(jù)θ條件對上述聯(lián)合分區(qū)后的兩個數(shù)據(jù)流進行第二次預過濾;
所述重分區(qū)模塊用于分別計算第二次預過濾后數(shù)據(jù)流的平均分區(qū)尺寸,對于分區(qū)尺寸大于平均分區(qū)尺寸的分區(qū)進行重分區(qū);
所述處理模塊用于對重分區(qū)后的兩數(shù)據(jù)流進行笛卡爾積操作,得到數(shù)據(jù)流θ連接的結(jié)果。
6.如權利要求5所述的系統(tǒng),其特征在于,所述的聯(lián)合分區(qū)模塊具體用于:
在計算完兩個數(shù)據(jù)流分別的分區(qū)標記后,將兩個數(shù)據(jù)流計算得出的分區(qū)標記進行合并以得到聯(lián)合分區(qū)標記,并利用所述聯(lián)合分區(qū)標記分別對兩個數(shù)據(jù)流進行更為細化的分區(qū)。
7.如權利要求6所述的系統(tǒng),其特征在于,所述的平均分區(qū)尺寸由下述公式計算得到:
其中,average_partition_size為該數(shù)據(jù)流的平均分區(qū)大小,number_of_elements_in_stream為該數(shù)據(jù)流處于當前處理窗口中的數(shù)據(jù)量,number_of_partitions為該數(shù)據(jù)流由聯(lián)合分區(qū)產(chǎn)生的分區(qū)數(shù)。
8.如權利要求7所述的系統(tǒng),其特征在于,所述重分區(qū)的分區(qū)數(shù)由下述公式計算得到:
其中,repartition_number為對過載分區(qū)進行重分區(qū)的重分區(qū)數(shù),oversized_partition_size為過載的分區(qū)的大小,average_partition_size為平均分區(qū)大小,上方括號為向上取整符號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經(jīng)深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110331197.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡數(shù)據(jù)流識別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲介質(zhì)
- 一種數(shù)據(jù)流類型識別模型更新方法及相關設備





