[發明專利]多應用時間線上的流數據處理有效
| 申請號: | 201780084279.8 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN110214318B | 公開(公告)日: | 2023-01-10 |
| 發明(設計)人: | B·錢德拉莫利;J·戈爾茨坦;M·巴奈特;J·F·特威利格 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華;羅利娜 |
| 地址: | 美國華*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 應用 時間 線上 數據處理 | ||
適應特定類型的無序數據;即,在數據無序到達時要適應這種無序數據,因為數據是在可能具有不同應用時間線的系統中生成的。當數據到達時,該數據以特定分區鍵到達。例如,該分區鍵可以標識數據源。來自每個分區鍵的數據相對于來自同一分區鍵的所有其他數據保持有序。也就是說,與來自任何其他鍵的數據相比,允許來自一個鍵的數據具有一個不同的時間線。因此,當跨鍵全局查看時,數據可能不是有序的。相反,只要到達的數據的滯后在某個容忍滯后范圍內,就可以容忍數據全局無序。如果數據到達,具有的時間超過最大容忍延遲,則系統應用某個策略來確定如何處理被延遲的數據。
背景技術
計算系統和相關聯的網絡極大地改變了我們的世界,其引入了現在通常稱為“信息時代”的概念。信息時代的一個特征是可以生成和發布針對數據集合的查詢。例如,數據集合可以包括關系數據庫,或者結構化或甚至非結構化數據的其他數據存儲。現在,甚至可以針對根據時間來組織的數據流生成查詢。流式數據的示例是時間戳事件流。
當處理數據流時,通常在假定流式數據以某種時間順序的相似性到達的情況下發生處理。時間排序的假定有幾個原因,主要是用于性能優化。但是,基于流數據處理中常用的用例,這樣的假定通常是有根據的。理想情況是流式數據始終按順序到達。然而,由于各種環境或系統原因(諸如網絡延遲),數據可能無序到達。因此,無序數據到達是一種真實世界的場景,這樣的場景需要適應但卻不是最佳數據處理路徑的一部分。
無序處理通常由流數據處理器以兩種不同方式之一來處理。在一種傳統方式中,使所有無序數據按數據進入系統的時間排序。這可以通過以下方式來進行:等待一段時間來按順序對無序數據進行排序,將無序數據的(多個)時間戳調節為有序,或者丟棄一個或多個無序數據,使得剩余數據有序。一旦數據在系統內部,流引擎就可以對數據進行操作,知道數據安全有序并且針對該情況進行優化。在處理無序數據的第二種傳統方式中,在系統內完成的所有處理都適應無序數據,并且由系統用戶決定在無序數據到達發生時該做什么。
本文中要求保護的主題不限于解決在諸如上述那些環境中的任何缺點或僅在諸如上述那些環境中操作的實施例。相反,提供該背景僅用于說明可以實踐本文中描述的一些實施例的一個示例性技術領域。
發明內容
本文中描述的至少一些實施例涉及適應特定種類的無序數據;即,在數據無序到達時要適應這種無序數據,因為數據是在可能具有不同應用時間線的系統中生成的。作為示例,數據可以來自不同的源,每個源具有它們自己的可能不同的應用時間。根據本文中描述的原理,當數據到達時,該數據以特定分區鍵到達。例如,該分區鍵可以標識數據源。本文中描述的原理確保來自每個分區鍵的每個數據相對于來自同一分區鍵的所有其他數據保持有序(該屬性在下文中稱為“鍵內有序”)。也就是說,與來自任何其他鍵的數據相比,允許來自一個鍵的數據具有一個不同的時間線。因此,當跨鍵全局查看時,數據可能不是有序的。
然而,根據本文中描述的原理,只要到達的數據的滯后在某個容忍滯后的范圍內,就可以容忍數據是全局無序的。如果數據到達的時間超過最大容忍滯后,則該系統應用某個策略來確定如何處理被延遲的數據。該策略可以指定:丟棄數據,將數據的時間戳調節到容忍范圍內,和/或應當重新排序數據以允許被延遲的數據全局按順序放置(或者至少在容忍滯后的范圍內全局按順序放置)。
提供本發明內容部分是為了以簡化的形式介紹一些概念,這些概念將在下面的具體實施方式部分中進一步描述。本發明內容部分無意標識所要求保護的主題的關鍵特征或必要特征,也無意用于幫助確定所要求保護的主題的范圍。
附圖說明
為了描述可以獲取本發明的上述和其他優點和特征的方式,將通過參考附圖中所示的具體實施例來呈現上面簡要描述的本發明的更具體的描述。應當理解,這些附圖僅描繪了本發明的典型實施例,因此不應當被認為是對其范圍的限制,本發明將通過使用附圖的附加特征和細節進行描述和解釋,在附圖中:
圖1示出了可以采用本文中描述的原理的示例計算機系統;
圖2如下示出了查詢環境,其中一個查詢接收與多個分區鍵相關聯的數據流;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780084279.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:多瓦片處理布置中的同步
- 下一篇:用于檢測數據中的相關性的計算機裝置和方法





