[發明專利]一種大規模流式集合數據的分布式處理方法有效
| 申請號: | 201710087603.3 | 申請日: | 2017-02-17 |
| 公開(公告)號: | CN106990913B | 公開(公告)日: | 2019-07-26 |
| 發明(設計)人: | 王建民;龍明盛;王玨;黃向東 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅文群 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 大規模 集合 數據 分布式 處理 方法 | ||
本發明涉及一種大規模流式集合數據的分布式處理方法,屬于計算機數據處理技術領域。首先基于分布式消息系統記錄流式集合數據的完備狀態,如果流式集合數據完備則消息系統生成對應的消息,分布式計算系統從分布式消息系統中提取流式集合數據的狀態消息,將獲取的流式集合數據存儲到分布式存儲系統,根據具體的處理算法和業務邏輯進行分布式處理和計算,并將處理結果存儲到分布式存儲系統中,完成對流式集合數據的處理。本發明方法可以有效的控制流式集合數據的處理流程,并利用集合數據的批量式計算提高系統的資源利用率。本方法可以快速、有效地處理目前日益增長的流式集合數據,十分適用于工業物聯網、氣象信息網等典型的大數據應用場景。
技術領域
本發明涉及一種大規模流式集合數據的分布式處理方法,屬于計算機數據處理技術領域。
背景技術
隨著大數據和物聯網技術的發展以及在多個關鍵領域的普及,在工業互聯網、氣象信息網等重要應用領域中實時產生著大規模流式集合數據。流式集合數據的特點是:不同集合的數據成員都流式地產生,但僅當每個集合中的數據成員全部完備才可以進行處理。例如,在智慧氣象領域中極為重要的集合預報數據,需要按照大氣動力學方程的多個初始條件計算氣象模式解,得到的多個數值解將構成一個完整的集合,而不同集合數據在全球各地的氣象部門中是以流式方式產生的;要進行集合預報,就需要每個集合中的所有數據成員都到齊才可以進行。對于大規模流式集合數據這一重要的數據類型,現有的單機系統和簡單的分布式系統都無法高效地處理,成為制約相關領域技術升級和業務增強的瓶頸之一。在復雜的數據產生環境下,如何快速有效的處理大規模流式集合數據,已成為分布式系統和大數據處理領域的一個重要問題。
面對如今龐大的計算任務,采用分布式計算系統的方案在工業界得到了廣泛認可,如國內的百度、阿里巴巴、騰訊等都部署了大規模的分布式計算系統,用于海量數據的高效處理。隨著分布式計算系統在各行各業優越的表現,一方面分布式計算系統的解決方案越來越多,同時越來越成熟,另一方面絕大部分的分布式計算系統面向大眾提供開源的代碼,降低了分布式計算系統使用的門檻,方便對分布式計算系統進行更好的學習使用和改進。雖然使用分布式計算系統進行大規模數據的高效處理已經成為主流的大數據解決方案,如何對大規模流式集合數據這一新的數據類型進行高效處理和持久化仍然是一個開放性問題,已經成為工業界聚焦的重要問題,也是大數據的前沿課題之一。
發明內容
本發明的目的是提出一種大規模流式集合數據的分布式處理方法,針對目前大規模流式集合數據處理的問題,采用分布式消息系統記錄集合數據完備狀態,采用分布式存儲系統對流式集合數據持久化,采用分布式計算系統進行批量高效處理,上述三個系統共同實現大規模流式集合數據的高效處理和存儲。
本發明提出的大規模流式集合數據的分布式處理方法,包括以下步驟:
(1)監控系統從數據源接收集合數據,將接收的集合數據記為記當前分布式存儲系統的寫入隊列長度為wcurrent,分布式存儲系統的最大寫入隊列長度為wmax,對當前分布式存儲系統的寫入隊列長度進行判斷,若0<wcurrent<wmax,則進入步驟(2);若wcurrent≥wmax,則監控系統將接收的集合數據寫入監控系統的磁盤,并記寫入磁盤的集合數據為sstore,繼續接收集合數據,重復本步驟,若wcurrent=0,則訪問磁盤上的sstore,并對磁盤上的sstore進行判斷,若sstore存在,則進入步驟(2),若sstore不存在,則重復本步驟;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710087603.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





