[發明專利]實時流數據的存儲方法及裝置在審
| 申請號: | 201710224721.4 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN108694187A | 公開(公告)日: | 2018-10-23 |
| 發明(設計)人: | 胡信 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實時流 解析結果 存儲 數據條 信息處理技術 分布式數據 查詢操作 查詢系統 查詢性能 查詢引擎 實時系統 預設數據 條數 解析 寫入 訪問 | ||
本發明公開了一種實時流數據的存儲方法及裝置,涉及信息處理技術領域,主要目的是解決由實時系統傳來的一條條數據所產生大量的parquet文件,會導致查詢系統在進行查詢操作時,訪問所有的parquet文件,影響查詢性能的問題。技術方案包括:接收實時流數據;對所述實時流數據進行解析,得到解析結果;根據所述解析結果,確定所述實時流數據的數據條數;判斷所述實時流數據的數據條數是否達到預設數據條數;如果是,則將所述實時流數據的解析結果寫入分布式數據查詢引擎。主要用于實時流數據的存儲。
技術領域
本發明涉及信息處理技術領域,尤其涉及一種實時流數據的存儲方法及裝置。
背景技術
隨著信息處理逐漸向大數據處理方向發展,一種適用于大數據查詢的新的分布式數據查詢引擎Impala已經進入人們的視野。Impala可以提供結構化查詢語言結構SQL的定義,并且在實時獲取到的數據流經過解析后,能夠將實時數據存儲在Impala中。
目前,現有的在實時系統傳來數據流時,每傳來一條數據,就會將數據存儲進Impala中,并生成這條數據的parquet文件,依次地,每當傳來一條數據進行存儲后就會產生一個parquet文件,由實時系統傳來的一條條數據所產生大量的parquet文件,會導致查詢系統在進行查詢操作時,訪問所有的parquet文件,影響查詢性能,從而降低查詢的效率。
發明內容
鑒于上述問題,提出了本發明以便提供一種實時流數據的存儲方法及裝置,主要目的是解決由實時系統傳來的一條條數據所產生大量的parquet文件,會導致查詢系統在進行查詢操作時,訪問所有的parquet文件,影響查詢性能的問題。
借由上述技術方案,本發明提供的一種實時流數據的存儲方法,包括:
接收實時流數據;
對所述實時流數據進行解析,得到解析結果;
根據所述解析結果,確定所述實時流數據的數據條數;
判斷所述實時流數據的數據條數是否達到預設數據條數;
如果是,則將所述實時流數據的解析結果寫入分布式數據查詢引擎。
進一步地,所述判斷所述實時流數據的數據條數未達到預設數據條數之后,所述方法還包括:
判斷首次接收到所述實時流數據的時間到當前時間所經過的時間是否達到預設時間間隔,或者,判斷自上次數據寫入所述分布式數據查詢引擎的時間到當前時間所經過的時間是否達到預設時間間隔;
如果是,則將所述實時流數據的解析結果寫入分布式數據查詢引擎。
進一步地,所述方法還包括:
采用第一線程執行所述判斷所述實時流數據的數據條數是否達到預設數據條數,以及所述判斷首次接收到所述實時流數據的時間點到當前時間所經過的時間是否達到預設時間間隔,或者,判斷自上次數據寫入所述分布式數據查詢引擎的時間到當前時間所經過的時間是否達到預設時間間隔的步驟;
采用與所述第一線程獨立的第二線程執行將所述實時流數據的解析結果寫入分布式數據查詢引擎的步驟。
進一步地,在判斷所述實時流數據的數據條數是否達到預設數據條數之前,所述方法還包括:
在與所述第一線程、所述第二線程分別獨立的第三線程中配置所述預設數據條數,以及在與所述第一線程、所述第二線程、所述第三線程分別獨立的第四線程中配置所述預設時間間隔。
進一步地,在對所述實時流數據進行解析,得到解析結果后,所述方法還包括:
將所述解析結果存儲進預設緩存中;
根據所述解析結果,確定所述實時流數據的數據條數包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710224721.4/2.html,轉載請聲明來源鉆瓜專利網。





