[發明專利]一種流式數據處理方法與系統在審
| 申請號: | 202010599344.4 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111797063A | 公開(公告)日: | 2020-10-20 |
| 發明(設計)人: | 劉洋洋;麻宇航;李興國;苗功勛 | 申請(專利權)人: | 中孚信息股份有限公司;中孚安全技術有限公司;北京中孚泰和科技發展股份有限公司;南京中孚信息技術有限公司 |
| 主分類號: | G06F16/172 | 分類號: | G06F16/172;G06F16/11;G06F16/16 |
| 代理公司: | 北京久維律師事務所 11582 | 代理人: | 邢江峰 |
| 地址: | 250101 山東省濟南市高新區*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 系統 | ||
本發明提供了一種流式數據處理方法與系統,本發明可將規模較大的文件存儲在磁盤中,節省了大量內存,可以使用性能較低的服務器處理大規模數據內容的分析;大文件在分析過程的流轉中以內存數據記錄的形式存在,提高了分析效率;另外可按需動態加載文件內容,減少文件讀寫次數,降低了磁盤IO操作,提高了分析效率。
技術領域
本發明涉及流數據技術領域,特別是涉及一種流式數據處理方法與系統。
背景技術
流數據是指由多個數據源持續生成的數據,通常以數據記錄的形式發送,對于持續生成動態新數據的大多數場景,與采用批量處理分析方式相比,采用流數據處理會更快的得到分析結論。
當前主流的流處理工具有Apache Spark Streaming、Apache Storm、Flink等。流處理中數據內容都被加載到內存中,數據一般為規模較小的結構化數據,如傳感器數據、應用日志數據、用戶點擊數據以及交易數據等。當處理規模較大的非結構化數據時,需要提前將數據結構化,并增加服務器物理內存或采用集群方式部署。當前工具的處理模式在處理較大規模的結構化數據或批量小規模數據時存在分析效率低的問題。
發明內容
本發明的目的是提供一種流式數據處理方法與系統,旨在解決現有技術中流處理需要將非結構數據進行結構化且在大規模結構化數據下分析效率低的問題,實現節省大量內存,提高分析效率。
為達到上述技術目的,本發明提供了一種流式數據處理方法,所述方法包括以下操作:
讀取所需處理的數據,并將讀取的數據保存在存儲組件中;
解析讀取的數據文件內容,將需要分析的內容提取到內存中形成數據記錄;
對數據記錄進行分析處理,將數據記錄內容匹配預先設置的關鍵字,如果命中則標記數據記錄;
對于命中的數據記錄,如果需要提取更加詳細的內容時,按需讀取存儲組件中的內容,并加載到內存中的數據記錄。
優選地,所述所需處理的數據為批量數據記錄或大規模非結構化文檔,為Office文件、PDF文件、視頻文件以及音頻文件的任意一種。
優選地,所述數據記錄為包括原始文件存儲路徑、文件格式以及文件大小的元數據。
本發明還提供了一種流式數據處理系統,所述系統包括:
數據讀取模塊,用于讀取所需處理的數據,并將讀取的數據保存在存儲組件中;
數據解析模塊,用于解析讀取的數據文件內容,將需要分析的內容提取到內存中形成數據記錄;
分析模塊,用于對數據記錄進行分析處理,將數據記錄內容匹配預先設置的關鍵字,如果命中則標記數據記錄;
數據再提取模塊,用于對于命中的數據記錄,如果需要提取更加詳細的內容時,按需讀取存儲組件中的內容,并加載到內存中的數據記錄。
優選地,所述所需處理的數據為批量數據記錄或大規模非結構化文檔,為Office文件、PDF文件、視頻文件以及音頻文件的任意一種。
優選地,所述數據記錄為包括原始文件存儲路徑、文件格式以及文件大小的元數據。
本發明還提供了一種流式數據處理設備,包括:
存儲器,用于存儲計算機程序;
處理器,用于執行所述計算機程序,以實現所述的流式數據處理方法。
本發明還提供了一種可讀存儲介質,用于保存計算機程序,其中,所述計算機程序被處理器執行時實現所述的流式數據處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中孚信息股份有限公司;中孚安全技術有限公司;北京中孚泰和科技發展股份有限公司;南京中孚信息技術有限公司,未經中孚信息股份有限公司;中孚安全技術有限公司;北京中孚泰和科技發展股份有限公司;南京中孚信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010599344.4/2.html,轉載請聲明來源鉆瓜專利網。





