[發明專利]一種處理數據的方法、裝置、設備以及存儲介質有效
| 申請號: | 201710821942.X | 申請日: | 2017-09-13 |
| 公開(公告)號: | CN107391770B | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 謝永恒;高魁;火一莽;萬月亮 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F16/2455 | 分類號: | G06F16/2455;G06F16/23;G06F16/2453;G06F16/27 |
| 代理公司: | 11332 北京品源專利代理有限公司 | 代理人: | 孟金喆 |
| 地址: | 100044 北京市海淀區西小口*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 處理 數據 方法 裝置 設備 以及 存儲 介質 | ||
本發明實施例公開了一種處理數據的方法、裝置、設備及存儲介質,配置關聯規則,并將規則文件上傳到預設存儲介質上;獲取緩存數據集,并根據分區規則對所述緩存數據集進行分區;獲取關聯數據集,并根據所述關聯規則對所述關聯數據集進行關聯。從而實現了流式的實時關聯計算能力。
技術領域
本發明實施例涉及數據處理的技術,尤其涉及一種處理數據的方法、裝置、設備及存儲介質。
背景技術
spark streaming是一個流式數據處理引擎,它對外提供基于micro batch處理機制處理數據。再對時間窗口內的數據進行各種運算,產生結果數據,spark streaming提供關聯join機制也是基于事件窗口內的數據進行計算,但是基于增量數據與全量數據的關聯無法解決。
目前業界的普遍解決方法是普遍依賴外部存儲,或者redis或者其他傳統數據庫,使用redis等nosql數據庫這種算法普遍影響計算低延遲性和處理效率低下,而使用傳統數據庫則在超大數據量下無法滿足時效性,以上諸種方法均需增加組件或者設備,以及相關設備和組件的維護工作。
發明內容
本發明實施例提供一種處理數據的方法、裝置、設備及存儲介質,旨在解決如何利用現有spark streaming處理能力,實現流上的數據之間進行關聯。
第一方面,一種處理數據的方法,所述方法包括:
配置關聯規則,并將規則文件上傳到預設存儲介質上;
獲取緩存數據集,并根據分區規則對所述緩存數據集進行分區;
獲取關聯數據集,并根據所述關聯規則對所述關聯數據集進行關聯。
可選地,所述根據分區規則對所述緩存數據集進行分區,包括:
根據所述關聯規則判斷所述緩存數據集是否是緩存數據;
若所述緩存數據集是緩存數據,則將所述緩存數據集加入到全量數據集中。
可選地,所述將所述緩存數據集加入到全量數據集中之后,還包括:
在加入時判斷是否有重復數據;
若有重復數據時,則更新所述全量數據集中對應的數據,同時依據配置的關聯字段對所述緩存數據集創建布隆過濾。
可選地,所述根據所述關聯規則對所述關聯數據集進行關聯,包括:
根據所述關聯規則判斷所述緩存數據集是否是關聯數據;
若所述緩存數據集是關聯數據,則查找所述關聯數據對應字段的布隆過濾;
若找到所述關聯數據對應字段的布隆過濾,則去除所述關聯數據對應字段下的數據,再進行數據復制關聯。
可選地,所述方法還包括:
監聽目錄,并將所述關聯規則加載到內存中,生成關聯規則RDD。
可選地,所述方法還包括:
通過所述緩存數據集和所述關聯數據集上的ID字段時間戳,記錄數據生產時間;再截取所述生產時間判斷存儲周期,并判斷是否老化數據。
可選地,所述方法還包括:
控制緩存內容的大小;
當所述緩存的數據集內容的大小超過預設閥值,則將緩存的數據寫入磁盤中的生成parquet文件,在內存上建立key、parquet文件名及parquet中column chunk的offset三個字段的內存索引,其中,所述key來自于配置的關聯字段;
若判斷關聯數據集的字段與緩存的key滿足關聯條件時,則從所述parquet文件上讀取對應的數據記錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710821942.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種索引查詢方法及裝置
- 下一篇:一種圖像特效的生成方法和裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





