[發明專利]一種超算環境下的海量數據實時采集與處理方法在審
| 申請號: | 201810514917.1 | 申請日: | 2018-05-25 |
| 公開(公告)號: | CN108681489A | 公開(公告)日: | 2018-10-19 |
| 發明(設計)人: | 伍衛國;張祥俊 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 徐文權 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 海量數據 實時采集 消息源 負載均衡技術 分布式數據 分布式消息 數據可靠性 訂閱系統 高可用性 緩沖作用 集群環境 實時處理 數據生成 完成容器 系統消息 數據處理 可擴充 數據源 緩沖 集群 編排 存儲 應用 保證 管理 | ||
本發明公開了一種超算環境下的海量數據實時采集與處理方法,首先通過flume軟件的source端將超算集群數據生成的數據源端的消息源進行收集,然后通過flume軟件將收集到的消息源匯集到Kafka軟件中,消息源以Kafka軟件為緩沖進行存儲,通過Spark軟件從Kafka軟件中提取需要處理的消息源進行數據處理,從而實現超算環境下的海量數據實時采集與處理,從而實現超算環境下的海量數據實時采集與處理,使用kafka來作為中間的緩沖作用,提高了數據可靠性,基于kafka的分布式消息訂閱系統可以有多個消息生產者和多個消費者的方式,這樣保證了系統消息的高可用性,結合docker容器化技術和負載均衡技術完成容器編排和管理,能夠應用于真實的分布式數據收集、實時處理并可擴充的超大集群環境。
技術領域
本發明涉及了在超級計算中心環境下的海量數據采集和處理軟件架構,尤其涉及到一種高并發、高可用、數據安全性和完備性要求下的的海量數據實時采集和處理框架。應用了流式處理數據處理技術、分布式消息訂閱技術、分布式存儲技術構建了一個從海量數據采集到處理的平臺。
背景技術
隨著我國創新驅動戰略的實施和工業轉型升級及兩化深度融合的不斷推進,工業產品研發得到了前所未有的重視。中國科技部提出:依托國家高性能計算環境,結合互聯網和云計算等技術,聚合工業開發社區所需的高性能計算、存儲、應用軟件、可視化、數據等資源培育形成基于國家高性能計算和服務環境的工業社區產品創新的生態環境。
超算環境下的復雜計算作業產生數據量巨大,應用程序對數據采集的完備性和處理實時性的要求越來越高。然而對于十分龐大的計算節點構建的超算環境下常見的數據采集工具已經無法滿足數據采集和處理的可靠性要求,數據生成的速度過快會產生數據丟失現象,而且存儲元數據的節點宕機后會對整個系統的安全性造成影響。
發明內容
本發明的目的在于提供一種超算環境下的海量數據實時采集與處理方法,以克服現有技術的不足。
為達到上述目的,本發明采用如下技術方案:
一種超算環境下的海量數據實時采集與處理方法,包括以下步驟:
首先通過flume軟件的source端將超算集群數據生成的數據源端的消息源進行收集,然后通過flume軟件將收集到的消息源匯集到Kafka軟件中,消息源以Kafka軟件為緩沖進行存儲,最后通過Spark軟件從Kafka軟件中提取需要處理的消息源進行數據處理,從而實現超算環境下的海量數據實時采集與處理。
進一步的,使用開分布式的海量日志采集、聚合和傳輸的系統flume作為數據源端的采集工具,通過Flume對數據進行簡單處理,并寫到各種數據接受方。
進一步的,數據源端包括console、RPC、text、tail、spooldir及syslog,數據源端支持TCP和UDP 2種模式。
進一步的,Kafka軟件采用分布式消息訂閱系統,即有多個消息生產者和多個消費者,kafka軟件將接收到的消息源存入到kafka軟件的磁盤數據結構的持久化中去供后端能處理端的消息來處理。
進一步的,Spark軟件通過SparkStream來消費Kafka的分布式消息,通過流式處理方式,計算需要做的分析處理業務。
進一步的,Spark軟件將結果通過數據可視化工具ichart展示出來,可視化工具ichart請求層的web應用程序采用docker容器編排的方式部署,使用 dockerswarm作為容器編排工具、結合ansible作為集群的自動化運維工具。
進一步的,超算集群的每個節點即超算節點都有多個進程部署在每個分布式節點上,分部署存儲的基底是以HDFS基地之上的多個節點構成的集群,超算節點在運行作業時產生的大批量數據會出處在log日志里面,最終flume 軟件將log日志里面的信息放入Kafka軟件緩存上面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810514917.1/2.html,轉載請聲明來源鉆瓜專利網。





