[發明專利]數據過濾方法、裝置、電子設備及存儲介質有效
| 申請號: | 201811150166.6 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN109408711B | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 劉萬強 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535 |
| 代理公司: | 11438 北京律智知識產權代理有限公司 | 代理人: | 袁禮君;闞梓瑄<國際申請>=<國際公布> |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標識信息 數據過濾 廣播 存儲介質 電子設備 工作節點 數據過濾裝置 影響數據處理 分布式數據 大數據 臨時表 內存 延遲 占用 響應 | ||
本發明的實施例提供了一種數據過濾方法、數據過濾裝置、電子設備以及存儲介質,涉及大數據技術領域。該方法包括:基于第一數據表中多條數據的標識信息生成廣播變量,并將所述廣播變量廣播至各個工作節點;提取所述工作節點產生的新增數據的標識信息,確定所述新增數據的標識信息是否存在于所述廣播變量中;響應于所述新增數據的標識信息存在于所述廣播變量中,將對應的新增數據過濾到待處理彈性分布式數據集。本發明實施例可以解決數據過濾時臨時表占用大量內存,導致發生延遲影響數據處理效率的問題。
技術領域
本發明涉及大數據技術領域,具體而言,涉及一種數據過濾方法、數據過濾裝置、電子設備以及計算機可讀存儲介質。
背景技術
隨著互聯網技術的迅速發展,催生了大數據時代,與大數據隨之而來的是海量實時的數據,而且數據無時無刻不在更新迭代,因此數據過濾技術也應運而生。
目前,相關的數據過濾技術中,通過Spark程序讀取Kafka中新增的監控報警數據,將新增的數據通過Spark SQL直接生成臨時表,再將該臨時表與數據庫中的報警表進行join(連接)查詢,將join查詢的結果插入到數據庫中。然而,將新增的數據直接轉換成臨時表會占用大量的內存空間,而且兩張數據表進行join查詢時會產生大量的讀寫操作,導致延遲經常發生,影響數據處理效率。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本發明背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本發明實施例的目的在于提供一種數據過濾方法、數據過濾裝置、電子設備以及計算機可讀存儲介質,進而至少在一定程度上克服由于相關技術的限制和缺陷而導致的數據過濾時占用大量空間,延遲經常發生的問題。
本發明的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本發明的實踐而習得。
根據本發明實施例的第一方面,提供了一種數據過濾方法,包括:基于第一數據表中多條數據的標識信息生成廣播變量,并將所述廣播變量廣播至各個工作節點;提取所述工作節點產生的新增數據的標識信息,確定所述新增數據的標識信息是否存在于所述廣播變量中;響應于所述新增數據的標識信息存在于所述廣播變量中,將對應的新增數據過濾到待處理彈性分布式數據集。
在本發明的一些實施例中,基于前述方案,基于第一數據表中多條數據的標識信息生成廣播變量,包括:獲取第一數據表中多條數據的標識信息;將各條數據的標識信息作為第一關鍵字,通過對所述第一關鍵字進行哈希運算生成與所述標識信息對應的位集BitSet;將所述BitSet作為初始數據生成廣播變量。
在本發明的一些實施例中,基于前述方案,確定所述新增數據的標識信息是否存在于所述廣播變量中,包括:將所述新增數據的標識信息作為第二關鍵字,對所述第二關鍵字進行所述哈希運算;基于所述哈希運算的結果判斷所述第二關鍵字在所述BitSet中是否存在。
在本發明的一些實施例中,基于前述方案,所述數據過濾方法還包括:基于所述待處理彈性分布式數據集生成臨時表,并將所述臨時表與第二數據表進行連接查詢。
在本發明的一些實施例中,基于前述方案,基于所述待處理彈性分布式數據集生成臨時表,包括:創建子線程,通過所述子線程將所述待處理彈性分布式數據集轉換成數據幀DataFrame;基于所述DataFrame生成臨時表。
在本發明的一些實施例中,基于前述方案的數據過濾方法,所述第一數據表為報警規則表,所述標識信息為日期、IP地址以及報警類型。
在本發明的一些實施例中,基于前述方案的數據過濾方法,所述哈希運算為MurmurHash運算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811150166.6/2.html,轉載請聲明來源鉆瓜專利網。





