[發明專利]實時流數據的存儲方法及裝置在審

申請號：	201710224721.4	申請日：	2017-04-07
公開（公告）號：	CN108694187A	公開（公告）日：	2018-10-23
發明（設計）人：	胡信	申請（專利權）人：	北京國雙科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京鼎佳達知識產權代理事務所(普通合伙) 11348	代理人：	王偉鋒;劉鐵生
地址：	100086 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	實時流解析結果存儲數據條信息處理技術分布式數據查詢操作查詢系統查詢性能查詢引擎實時系統預設數據條數解析寫入訪問
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種實時流數據的存儲方法及裝置，涉及信息處理技術領域，主要目的是解決由實時系統傳來的一條條數據所產生大量的parquet文件，會導致查詢系統在進行查詢操作時，訪問所有的parquet文件，影響查詢性能的問題。技術方案包括：接收實時流數據；對所述實時流數據進行解析，得到解析結果；根據所述解析結果，確定所述實時流數據的數據條數；判斷所述實時流數據的數據條數是否達到預設數據條數；如果是，則將所述實時流數據的解析結果寫入分布式數據查詢引擎。主要用于實時流數據的存儲。

技術領域

本發明涉及信息處理技術領域，尤其涉及一種實時流數據的存儲方法及裝置。

背景技術

隨著信息處理逐漸向大數據處理方向發展，一種適用于大數據查詢的新的分布式數據查詢引擎Impala已經進入人們的視野。Impala可以提供結構化查詢語言結構SQL的定義，并且在實時獲取到的數據流經過解析后，能夠將實時數據存儲在Impala中。

目前，現有的在實時系統傳來數據流時，每傳來一條數據，就會將數據存儲進Impala中，并生成這條數據的parquet文件，依次地，每當傳來一條數據進行存儲后就會產生一個parquet文件，由實時系統傳來的一條條數據所產生大量的parquet文件，會導致查詢系統在進行查詢操作時，訪問所有的parquet文件，影響查詢性能，從而降低查詢的效率。

發明內容

鑒于上述問題，提出了本發明以便提供一種實時流數據的存儲方法及裝置，主要目的是解決由實時系統傳來的一條條數據所產生大量的parquet文件，會導致查詢系統在進行查詢操作時，訪問所有的parquet文件，影響查詢性能的問題。

借由上述技術方案，本發明提供的一種實時流數據的存儲方法，包括：

接收實時流數據；

對所述實時流數據進行解析，得到解析結果；

根據所述解析結果，確定所述實時流數據的數據條數；

判斷所述實時流數據的數據條數是否達到預設數據條數；

如果是，則將所述實時流數據的解析結果寫入分布式數據查詢引擎。

進一步地，所述判斷所述實時流數據的數據條數未達到預設數據條數之后，所述方法還包括：

判斷首次接收到所述實時流數據的時間到當前時間所經過的時間是否達到預設時間間隔，或者，判斷自上次數據寫入所述分布式數據查詢引擎的時間到當前時間所經過的時間是否達到預設時間間隔；

如果是，則將所述實時流數據的解析結果寫入分布式數據查詢引擎。

進一步地，所述方法還包括：