[發明專利]一種數據獲取方法及裝置在審
| 申請號: | 201910731693.4 | 申請日: | 2019-08-08 |
| 公開(公告)號: | CN110324211A | 公開(公告)日: | 2019-10-11 |
| 發明(設計)人: | 李善任;董會存 | 申請(專利權)人: | 宜人恒業科技發展(北京)有限公司;普信恒業科技發展(北京)有限公司 |
| 主分類號: | H04L12/26 | 分類號: | H04L12/26;H04L12/861 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 100022 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 原始數據 日志信息 統計結果 數據獲取 統計周期 消息隊列 時間段 采集 統計 實時采集 實時統計 周期統計 實時性 寫入 截止 | ||
本發明公開了一種數據獲取方法及裝置,該方法包括:實時采集日志信息;以統計規則為依據,基于采集到的日志信息,獲得統計相關的原始數據,將獲得的原始數據寫入第一消息隊列;從第一消息隊列中,收集與當前統計周期對應的原始數據;在收集到原始數據時,根據收集到的當前原始數據、第一時間段的統計結果和統計規則,得到第二時間段的統計結果。本發明能夠在采集到日志信息的瞬間,實時統計出當前統計周期內截止到當前時刻的統計結果,實現了實時性的周期統計。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種數據獲取方法及裝置。
背景技術
在工作生活中,常常需要對一定周期內的數據進行統計(以下稱為周期統計),即統計一定時間周期內的數據值,比如在利用爬蟲爬取數據時,需要統計一段時間內的抓取成功率。
但是,在現有技術中,一般需要在一個統計周期結束后,才能基于該周期內的數據實現周期統計。例如在統計抓取成功率時,在一個統計周期結束后,根據該統計周期內的抓取成功總數與抓取總數得到該周期內的抓取成功率,周期統計的實時性較差,存在一定的延時,數據獲取的效果不佳。
發明內容
有鑒于此,本申請實施例提供了一種數據獲取方法及裝置,能夠解決現有技術中周期統計實時性差的問題。
本申請實施例第一方面提供了一種數據獲取方法,包括:
實時采集日志信息;
以統計規則為依據,基于采集到的日志信息,獲得統計相關的原始數據,將獲得的原始數據寫入第一消息隊列;
從所述第一消息隊列中,收集與當前統計周期對應的原始數據;
在收集到與當前統計周期對應的原始數據時,根據收集到的當前原始數據、第一時間段的統計結果和所述統計規則,得到第二時間段的統計結果;
其中,所述第一時間段包括當前統計周期的開始時刻至前一次收集到的原始數據對應的時刻,所述第二時間段包括所述當前統計周期的開始時刻至所述當前原始數據對應的時刻;所述第一時間段的統計結果基于所述當前統計周期的開始時刻至所述前一次收集到的原始數據對應的時刻之間對應的各個原始數據和所述統計規則得到。
可選的,所述第一消息隊列基于KafKa實現。
可選的,所述以統計規則為依據,基于采集到的日志信息,獲得統計相關的原始數據,具體包括:
當所述采集到的日志信息中存在與所述統計規則匹配的字段時,基于所述與所述統計規則匹配的字段,得到所述原始數據。
可選的,當統計周期為多個時,所述原始數據包括參與統計的數據和統計周期標識;所述基于所述與所述統計規則匹配的字段,得到所述原始數據,具體包括:
基于所述與所述統計規則匹配的字段和各個統計周期對應的統計周期標識,得到多個原始數據;
其中,得到的多個原始數據與所述統計周期一一對應,每個得到的原始數據攜帶對應統計周期的統計周期標識。
可選的,在所述得到第二時間段的統計結果之后,還包括:
將得到的統計結果寫入第二消息隊列;
獲取所述第二消息隊列中的統計結果,將獲取到的統計結果寫入預設存儲區域。
可選的,所述第二消息隊列基于KafKa實現。
本申請實施例第二方面提供了一種數據獲取裝置,包括:
采集模塊,用于實時采集日志信息;
整理模塊,用于以統計規則為依據,基于所述采集模塊采集到的日志信息,獲得統計相關的原始數據;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于宜人恒業科技發展(北京)有限公司;普信恒業科技發展(北京)有限公司,未經宜人恒業科技發展(北京)有限公司;普信恒業科技發展(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910731693.4/2.html,轉載請聲明來源鉆瓜專利網。





