[發明專利]一種基于流式數據處理架構的天文元數據歸檔方法及系統有效
| 申請號: | 201710371260.3 | 申請日: | 2017-05-24 |
| 公開(公告)號: | CN107317838B | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 徐川;郭航;趙國鋒;蔡宇;唐彬 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08;H04L9/06 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據處理 架構 天文 數據 歸檔 方法 系統 | ||
本發明請求保護一種基于流式數據處理架構的天文元數據歸檔方法及系統,屬天文數據處理領域。首先,在數據源部署Agent。Agent實時監控數據源,一旦有新的數據產生,Agent的監控模塊會立即解析新的觀測數據并生成相應的元數據;其次,Agent的數據采集模塊會實時采集監控模塊生成的元數據,并通過網絡傳輸到指定元數據歸檔平臺;而后歸檔平臺的緩存模塊會實時接收數據源過來的元數據,并將元數據寫入分布式緩存隊列中;最后歸檔平臺的流式數據處理組件會實時從緩存隊列中讀取元數據,并處理成時空維度的關聯子圖寫入到圖形數據庫中。通過實時元數據歸檔,可減少冗余數據占據的網絡帶寬,減少系統占用的物理緩存成本,同時保證觀測數據的實時共享。
技術領域
本發明屬于天文數據處理領域,具體涉及基于流式處理架構的實時天文數據歸檔系統。
背景技術
隨著各地天文觀測站的建成和各種高精度觀測儀器的使用,天文觀測數據呈現了爆發增長的趨勢。面對龐大的數據集,如何實現有效管理和檢索是提高科研產出的關鍵問題之一。在實際的天文觀測中,FITS文件是天文觀測數據的最主要存儲格式。FITS包括數據頭和數據體。在FITS頭中包含著豐富的描述性元數據信息,以基本的key/value形式存儲。相對于龐大的原始FITS數據集來說,FITS元數據不僅具有豐富的語義信息,同時在數據量級上要小得多。天文工作者可以通過查看元數據的方式來定位數據集。所以在天文學領域中也常常通過存儲元數據的方式,來實現對數據資源的管理。天文數據歸檔是天文數據存儲和檢索的重要步驟,其主要思想是基于檢索天文元數據信息來定位符合用戶限定條件的天文觀測數據集,從而達到觀測數據共享、減少數據集檢索消耗的時間成本的目的。而當前的天文觀測數據歸檔方法特別是遠程數據歸檔往往需要用戶上傳原始數據集,或者歸檔平臺以周期性掃描數據源的方式進行離線歸檔,從而導致了大量的觀測數據占用過多的網絡帶寬,占用較大的緩存空間,以及對一些實時性要求比較高的應用來說數據發布的時延過大的問題。而本發明采用數據源先抽取元數據的方式,再將元數據通過網絡傳輸到歸檔平臺進行數據處理。而元數據的數據量級相比原始數據要小的多,因此本發明節約了大量的網絡帶寬,也降低了時延,提高了實時性,同時減少了歸檔平臺所需要的緩存成本。
流式數據處理平臺Storm屬于Apache旗下的一個開源項目,是一款高性能的分布式實時流式數據處理平臺,近年來已經被應用到許多實時數據處理的場景。通過搭建Storm分布式集群以及設計流數據處理邏輯拓撲,實現海量數據的實時高效處理。同時基于Flume+Kafka+Storm分布式流式數據處理架構近年來已經被應用于許多海量數據處理的場所。其中Apache Kafka是一款高性能消息緩存隊列,Apache Flume是一款實時日志采集系統。流式數據處理架構的出現也給天文元數據的歸檔設計帶來了新的契機,可以通過流式數據處理架構來提升歸檔系統的數據處理能力和實時性。相比傳統歸檔系統中先傳輸原始數據,然后再采用腳本處理元數據,本發明采用的基于流式數據處理架構的歸檔方式可提高系統吞吐量同時又可以減少數據處理時延。
發明內容
本發明旨在解決以上現有技術的問題。提出了一種減少了離線歸檔所占用的臨時緩存空間,同時提高了觀測數據發布的實時性、使得系統的實時性大大提高,對提高天文數據的應用效率具有較大意義的方法。本發明的技術方案如下:
一種基于流式數據處理架構的天文元數據歸檔方法,其包括以下步驟:
101、在不同的數據源部署Agent代理,Agent實時監控數據源,一旦有新的原始觀測數據產生,Agent的監控模塊會立即解析新的原始觀測數據并生成相應的元數據;
102、Agent的數據采集模塊會實時采集監控模塊生成的元數據,并通過網絡傳輸到指定元數據歸檔平臺;元數據歸檔平臺的緩存模塊會實時接收數據源發送過來的元數據,并將元數據寫入分布式緩存隊列中;
103、歸檔平臺的流式數據處理組件實時從緩存隊列中讀取元數據,并處理成時空維度的關聯子圖寫入到圖形數據庫中,完成天文元數據歸檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710371260.3/2.html,轉載請聲明來源鉆瓜專利網。





