[發明專利]一種流數據的分布式動態處理方法有效
| 申請號: | 201810006502.3 | 申請日: | 2018-01-04 | 
| 公開(公告)號: | CN108228356B | 公開(公告)日: | 2021-01-15 | 
| 發明(設計)人: | 吳松;劉志毅;金海;陳飛 | 申請(專利權)人: | 華中科技大學 | 
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 | 
| 代理公司: | 北京海虹嘉誠知識產權代理有限公司 11129 | 代理人: | 何志欣;侯越玲 | 
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 分布式 動態 處理 方法 | ||
本發明涉及一種流數據的分布式動態處理方法,至少包括:分析并預測用戶流數據處理程序數據中至少一個數據特征塊的執行模式,基于流數據的平均排隊時延的大小以及排隊時延的閾值來動態調整所述執行模式,和基于所述執行模式處理對應的至少一個所述數據特征塊。本發明通過將流數據計算中不相關的流水線模式和微批模式進行關聯,實現了兩種模式的自動轉換和數據處理,同時具有吞吐量高和延遲低的雙重優勢。
技術領域
本發明涉及流數據處理技術領域,尤其涉及一種流數據的分布式動態處理方法。
背景技術
在傳統的數據處理流程中,先收集數據,然后將數據放到數據庫中,在人們需要的時候通過數據庫對數據進行查詢,得到答案。這樣的一個流程隱含了兩個前提:1.數據是舊的。當人們對數據庫做查詢的時候,數據庫的數據是過去某一個時刻數據的一個快照,數據已經過時了,并且很可能已經過期了。2.這樣的流程中,需要人們主動的發出查詢。也就是說,在人們查詢的時候,數據才會被處理。但在某些時候,這兩個前提都不存在。例如股票市場中,數據總是不斷的產生,人們需要根據當前的數據實時的作出判斷;由于數據量太大,人們希望設定某種條件,當數據滿足這些條件時系統能夠主動的通知人并且自動地進行操作。正是由于有這種需求,才會出現流數據處理。即根據人們設定的要求對實時信息流進行處理,并將結果保存或返回至發起端,這樣人們能夠實時掌握最新的數據動態。生產環境中很多場景需要使用實時流數據處理,比如實時購物推薦、社交數據實時分析、站點日志處理、智能電網的實時數據處理等。這些場景都具有數據量大、實時性要求高的特點。
當前針對流數據的流計算框架有兩種執行方案:流水線模式和微批模式。流水線模式即是數據依次流過各個節點之后就完成處理,就像工廠流水線一樣,每一個節點其操作是相對固定的,而流數據在這些節點中依照執行邏輯流動。流水線模式的優勢在于它的表達方式。數據一旦到達立即處理,這些系統的延遲性遠比其它微批處理要好。數據流模式將更多的資源用于保證低延遲,所以其數據吞吐量相應較低。微批模式即是將連續的數據流依照時間進行人為切分,分割成一個個小的批量數據,將數據放置在固定的節點中,然后由節點迭代操作邏輯完成計算,這樣避免了大量數據在節點之間傳輸,具有較高吞吐量,但是由于有數據積累的過程,所以數據的處理延遲也會較大。
由上可以看到,當前的兩種流數據分布式處理方案都有著自己的優缺點:流水線模式處理延遲低,但是吞吐量相應也低;微批模式吞吐量高,但是處理延遲相應也高。這兩種處理方案都不能達到流數據處理的高吞吐量、低延遲的目標。即現有兩種技術方案是處于對立面。同時,分析現有流處理邏輯發現,不同操作有不同的數據放大量。有些操作是數據放大形式,比如句子切分成單詞這個操作,將一個句子切分成單詞,造成了數據數量變大。還有的操作是數據縮小形式,比如過濾操作。這樣,一個完整的流處理邏輯中,數據有放大有縮小。
本發明試圖探尋一種流數據分布式處理方法,針對流數據在分布式處理下的高吞吐量和低延遲不能兼顧的問題,根據流數據處理邏輯執行前的預測和流數據處理過程中的外部數據源變化和集群執行能力變化,選擇最適合的執行模式來執行該部分的流數據處理邏輯,在維持模式變化對用戶透明的前提下,可有效地增加分布式流數據處理的吞吐量并降低分布式流數據處理的延遲,同時避免流數據重復處理,從而提高流數據分布式處理的性能。
發明內容
針對現有技術之不足,本發明提供一種流數據的分布式動態處理方法,其特征在于,所述方法至少包括:分析并預測用戶流數據處理程序數據中至少一個數據特征塊的執行模式,基于流數據的平均排隊時延的大小以及排隊時延的閾值來動態調整所述執行模式,基于所述執行模式處理對應的至少一個所述數據特征塊。將不相關的流水線模式和微批模式關聯并進行動態轉換,實現了流數據計算的吞吐量高和延遲低的良好效果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中科技大學,未經華中科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810006502.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:任務處理方法及裝置、任務調度方法及裝置
- 下一篇:一種內存清理方法及移動終端
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





