[發(fā)明專利]數(shù)據(jù)流連接方法及裝置有效
| 申請?zhí)枺?/td> | 201610965692.2 | 申請日: | 2016-11-01 |
| 公開(公告)號: | CN108009111B | 公開(公告)日: | 2020-02-21 |
| 發(fā)明(設(shè)計)人: | 劉新春;張如聰;姜松 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F13/40 | 分類號: | G06F13/40 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 楊文娟;劉芳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)流 連接 方法 裝置 | ||
本發(fā)明提供一種數(shù)據(jù)流連接方法及裝置,根據(jù)至少三個數(shù)據(jù)流各自的屬性,確定出該至少三個數(shù)據(jù)流之間的連接謂詞,根據(jù)連接謂詞得到至少三個數(shù)據(jù)流依次相鄰的第一連接順序,確定連接謂詞中的各屬性的值的數(shù)據(jù)分布。然后,在接收到任一數(shù)據(jù)流的新元組后,對該數(shù)據(jù)流的屬性對應(yīng)的數(shù)據(jù)分布進行調(diào)整,最終根據(jù)調(diào)整后的數(shù)據(jù)分布,將第一連接順序調(diào)整為第二連接順序。該過程中,接收到新元組都會對該新元組所在的數(shù)據(jù)流對應(yīng)的屬性的值的數(shù)據(jù)分布進行調(diào)整,使調(diào)整后的數(shù)據(jù)分布與實際的數(shù)據(jù)分布相一致,進而根據(jù)實時調(diào)整的數(shù)據(jù)分布確定數(shù)據(jù)流的第二連接順序,實現(xiàn)動態(tài)調(diào)整數(shù)據(jù)流連接順序、提高數(shù)據(jù)流連接效率的目的。
技術(shù)領(lǐng)域
本發(fā)明實施例涉及數(shù)據(jù)流連接技術(shù),尤其涉及一種數(shù)據(jù)流連接方法及裝置。
背景技術(shù)
隨著信息技術(shù)的不斷發(fā)展,信息的產(chǎn)生速度呈爆炸式增長的趨勢,越來越多的信息以“流”的形式提供給用戶,該種形式的信息被稱之為數(shù)據(jù)流。
數(shù)據(jù)流的一個顯著特點是具有時效性,隨著時間的繼續(xù),越早出現(xiàn)的數(shù)據(jù)的價值越低。因此,引入了滑動窗口的概念,用戶只關(guān)注數(shù)據(jù)流中出現(xiàn)在滑動窗口內(nèi)的部分。另外,由于數(shù)據(jù)流采集設(shè)備等的限制,單條數(shù)據(jù)流只能提供部分信息。此時,為了獲取完整全面的信息,需要對多個數(shù)據(jù)流進行連接操作,也稱之為關(guān)聯(lián)(JOIN)操作,從而將多個數(shù)據(jù)流結(jié)合起來。連接操作過程中,當(dāng)數(shù)據(jù)流的數(shù)量超過三個時,通過一定的順序?qū)⒃撔?shù)據(jù)流連接,連接順序不同,則產(chǎn)生的中間結(jié)果的數(shù)量不同,連接的效率也不同,正確的連接順序是連接操作的重要因素之一。其中,中間結(jié)果是指在得到的最終的結(jié)果之前,未進行連接操作的數(shù)據(jù)流為兩個或兩個以上時,已進行連接操作的數(shù)據(jù)流進行連接操作的結(jié)果。
目前主要通過如下兩種方式確定連接順序:方式一、提供應(yīng)用程序編程接口(Application Programming Interface,API)以及豐富的算子庫,用戶通過編程的方式選擇合適的算子確定連接順序;方式二、用戶通過編寫查詢語句來確定連接順序。連接順序確定好后,采用該確定好的連接順序關(guān)聯(lián)數(shù)據(jù)流。
上述數(shù)據(jù)流關(guān)聯(lián)過程中,通過確定好的連接順序進行數(shù)據(jù)流關(guān)聯(lián),連接順序一旦確定好,則數(shù)據(jù)流的連接順序固定,不再發(fā)生變化。然而,隨著時間的繼續(xù),滑動窗口中的數(shù)據(jù)不斷更新,事先確定好的連接順序并不一定在是最優(yōu)的連接順序,無法高效的完成數(shù)據(jù)流的關(guān)聯(lián)。
發(fā)明內(nèi)容
本發(fā)明提供一種數(shù)據(jù)流連接方法及裝置,通過動態(tài)調(diào)整數(shù)據(jù)流連接順序,實現(xiàn)提高數(shù)據(jù)流連接效率的目的。
第一方面,本發(fā)明實施例提供一種數(shù)據(jù)流連接方法,該方法中,根據(jù)至少三個數(shù)據(jù)流各自的屬性,確定出該至少三個數(shù)據(jù)流之間的連接謂詞,根據(jù)連接謂詞得到至少三個數(shù)據(jù)流依次相鄰的第一連接順序,確定連接謂詞中的各屬性的值的數(shù)據(jù)分布。然后,在接收到任一數(shù)據(jù)流的新元組后,對該數(shù)據(jù)流的屬性對應(yīng)的數(shù)據(jù)分布進行調(diào)整,最終根據(jù)調(diào)整后的數(shù)據(jù)分布,將第一連接順序調(diào)整為第二連接順序。其中,至少三個數(shù)據(jù)流中,每兩個數(shù)據(jù)流均具有、且值相等的屬性為該兩個數(shù)據(jù)流之間的連接謂詞;至少三個數(shù)據(jù)流根據(jù)相等屬性對多個數(shù)據(jù)流排序后形成的順序為第一連接順序;數(shù)據(jù)分布包括統(tǒng)計學(xué)中的直方圖、餅圖、表格等。
上述方法中,接收到新元組都會對該新元組所在的數(shù)據(jù)流對應(yīng)的屬性的值的數(shù)據(jù)分布進行調(diào)整,使調(diào)整后的數(shù)據(jù)分布與實際的數(shù)據(jù)分布相一致,進而根據(jù)實時調(diào)整的數(shù)據(jù)分布確定數(shù)據(jù)流的第二連接順序,實現(xiàn)動態(tài)調(diào)整數(shù)據(jù)流連接順序、提高數(shù)據(jù)流連接效率的目的。
在一種可行的實現(xiàn)方式中,所述根據(jù)所述新元組,調(diào)整所述多個數(shù)據(jù)分布中所述第i個數(shù)據(jù)流的屬性對應(yīng)的數(shù)據(jù)分布,包括:確定所述第i個數(shù)據(jù)流的屬性對應(yīng)的數(shù)據(jù)分布是否超過誤差門限;在所述第i個數(shù)據(jù)流的屬性對應(yīng)的數(shù)據(jù)分布未超過所述誤差門限的情況下,刪除所述第i個數(shù)據(jù)流的屬性對應(yīng)的數(shù)據(jù)分布中的過期元組的值,并將接收到的新元組的值加入所述數(shù)據(jù)分布,所述過期元組為已流出所述第i個數(shù)據(jù)流的滑動窗口的元組;在所述第i個數(shù)據(jù)流的屬性對應(yīng)的數(shù)據(jù)分布超過所述誤差門限的情況下,重新構(gòu)建所述第i個數(shù)據(jù)流的屬性對應(yīng)的數(shù)據(jù)分布。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610965692.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡(luò)數(shù)據(jù)流識別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設(shè)備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲介質(zhì)
- 一種數(shù)據(jù)流類型識別模型更新方法及相關(guān)設(shè)備





