[發明專利]一種海量數據文件處理方法在審
| 申請號: | 201710120509.3 | 申請日: | 2017-03-02 |
| 公開(公告)號: | CN106919685A | 公開(公告)日: | 2017-07-04 |
| 發明(設計)人: | 董方輝;張華;牛紀杰 | 申請(專利權)人: | 浪潮軟件集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南信達專利事務所有限公司37100 | 代理人: | 孟峣 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海量 數據文件 處理 方法 | ||
技術領域
本發明涉及計算機技術領域,具體地說是一種海量數據文件處理方法。
背景技術
在全國不動產數據的采集匯總過程中,數據以成百上千TB不斷增長,而且信息的存儲方式也多種多樣,傳統的數據庫部署不能處理數TB數據,也不能很好的支持高級別的數據分析。針對信息的數據量較大、傳輸的穩定、存儲和計算的效率以及數據展示的速度的問題,現有技術方案存在的問題和缺點:數據處理速度慢,穩定性差、數據的查詢速度慢。基于此,現提供一種海量數據文件處理方法,對上述問題進行了解決和改進。
發明內容
本發明的技術任務是針對以上不足之處,提供一種海量數據文件處理方法。
一種海量數據文件處理方法,其實現過程為:
首先在客戶端配置信息采集模塊,該信息采集模塊收集報文并校驗;
將收集的報文轉移到該信息采集模塊的監控目錄下;
然后通過實時計算和離線計算的方式,計算收集的報文;
最后將計算的報文結果進行圖形化展示。
所述實時計算過程為:首先配置實時計算模塊,該實時計算模塊用于組合條件查詢;實時計算模塊在檢索查詢數據后,查看數據的明細,實時計算今日入庫數量和實時入庫條數,并將實時計算結果寫入關系型數據庫或內存數據庫,用于前端展示。
當計算結果寫入關系型數據庫或內存數據庫時,實時計算模塊還可對計算結果進行綜合查詢:當實時計算模塊進行綜合統計查詢時,用于將上述實時計算結果入庫的程序來對報文解析,根據入庫時間實時計算數據入庫的數量。
所述離線計算是指對歷史數據進行多維度統計分析,將分析后的結果數據通過傳輸工具抽取到關系型數據庫,以方便前端查詢和展示。
所述信息采集模塊采用分布式日志聚合系統Flume,在客戶端收集報文并校驗后,Flume把收集報文處理,將消息推送給分布式發布訂閱消息系統Kafka,通過Kafka分發到Elasticsearch、Hbase、Spark。
所述報文轉移的過程是指:將收集報文轉移到分布式日志聚合系統Flume的監控目錄,Flume掃描監控目錄下的文件,將其存儲至Elasticsearch、Hbase、Spark。
Elasticsearch用于組合條件查詢,該Elasticsearch檢索數據后,基于大數據調優的Hbase rowkey設計實現查看數據的明細;通過實時計算框架Spark Streaming實時計算今日入庫數量和實時入庫條數,并將實時計算結果寫入關系型數據庫或內存數據庫,用于前端展示。
所述將計算的報文結果進行圖形化展示是指對今日/昨日/歷史入庫、增量入庫列表/異常/對比/組成、增量實時監控進行圖形化展現。
本發明的一種海量數據文件處理方法和現有技術相比,具有以下有益效果:
本發明的一種海量數據文件處理方法,可提高數據的采集的吞吐量、提高數據傳輸和存儲的穩定性,加強數據計算的效率和數據查詢的速度,以數據為核心的大數據技術支撐平臺,它為政府或企業提供數據采集、存儲、計算、分析、可視化、服務化等全生命周期、一站式數據解決方案,實用性強,適用范圍廣泛,具有很好的推廣應用價值。
附圖說明
附圖1為本發明的實現框圖。
具體實施方式
下面結合附圖及具體實施例對本發明作進一步說明。
如附圖1所示,一種海量數據文件處理方法,本發明可處理目前互聯網大數據,包括數據的采集、數據的轉換存儲、數據的計算和數據展現的一體化處理流程。
在該發明中,數據的采集主要使用Flume(分布式的日志收集系統)和Kafka(分布式消息系統);數據的計算包括實時計算(Elasticsearch)和離線計算(Hive);數據的展現包括數據多維度的分析和監控。
其實現過程為:
首先在客戶端配置信息采集模塊,該信息采集模塊收集報文并校驗;
將收集的報文轉移到該信息采集模塊的監控目錄下;
然后通過實時計算和離線計算的方式,計算收集的報文;
最后將計算的報文結果進行圖形化展示。
所述實時計算過程為:首先配置實時計算模塊,該實時計算模塊用于組合條件查詢;實時計算模塊在檢索查詢數據后,查看數據的明細,實時計算今日入庫數量和實時入庫條數,并將實時計算結果寫入關系型數據庫或內存數據庫,用于前端展示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮軟件集團有限公司,未經浪潮軟件集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710120509.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據導出方法、裝置、設備及存儲介質
- 下一篇:一種電氣型號搜索方法





