[發明專利]數據處理的方法、裝置、存儲介質以及電子設備在審
| 申請號: | 202211099376.3 | 申請日: | 2022-09-08 |
| 公開(公告)號: | CN115640187A | 公開(公告)日: | 2023-01-24 |
| 發明(設計)人: | 李天浩;雷賽齡;黃子豪;趙正陽 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F11/34;G06F16/215 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 周春枚 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 存儲 介質 以及 電子設備 | ||
本申請公開了一種數據處理的方法、裝置、存儲介質以及電子設備,涉及大數據領域。該方法包括:獲取預設時間段內不同的訪問設備對交易系統的訪問數據,得到多個訪問數據;根據設備ID對多個訪問數據進行分組,得到多個數據集合;分別遍歷每個數據集合的訪問數據,生成標識,依次根據當前遍歷的訪問數據的時間更新標識,并在每次更新標識的過程中對數據集合中重復訪問數據去重,直至遍歷完畢,得到多個去重后的數據集合。通過本申請,解決了相關技術中在數據存儲量較大的場景、或是數據時間為亂序的場景下數據去重操作的穩定性和準確性低的問題。
技術領域
本申請涉及大數據領域,具體而言,涉及一種數據處理的方法、裝置、存儲介質以及電子設備。
背景技術
Flink是一個分布式實時數據處理引擎,可以以流水線的方式處理實時數據,支持高吞吐,低延遲,高性能的有狀態計算。在基于Flink框架的大交易量且聚合窗口較長的實時計算場景中,目前業界的實現方法是將長時間的超大窗口中的數據進行分組,將長時間流水線處理的大量數據切分為短時間小窗口的少量數據進行去重,再將得到的多個小窗口的完成數據去重的數據進行大窗口的去重,得到大量數據的去重結果,從而提高數據去重的穩定性,并且減少每個窗口中的去重的數據量,使得去重時存儲的數據量減小,避免存儲單元出現異常。
但是,在按照時間維度進行去重的時候,由于數據是以流水線的形式依次確定是否為時間重復的數據,因此,在數據量較大的情況下,可以通過兩種方法進行數據的去重。
方案一為:將首次出現的時間對應的數據進行保存,在獲取到新數據的時候,判斷該數據的時間與已存儲的數據的時間是否相同,在相同的情況下表征數據重復,需要去除,在不相同的情況下進行存儲,從而得到無重復的數據時間的數據。但是,方案一僅能用于數據量小,或是時間跨度小的場景,在數據量大、數據時間之間的跨度較大的情況下,存儲的數據量會很大,從而會出現數據存儲異常的情況,導致Flink的穩定性下降。
方案二為:將數據按時間進行單一存儲,在新數據的數據時間大于存儲的數據的數據時間的情況下,使用新數據替換存儲的數據,在新數據的數據時間小于等于存儲的數據的數據時間的情況下,判斷該數據為時間重復數據并進行去重。通過方案二可以大幅減少存儲數據,但是在數據的時間為亂序的情況下,十分容易丟數據,從而導致去重后的數據結果不準確。
針對相關技術中在數據存儲量較大的場景、或是數據時間為亂序的場景下數據去重操作的穩定性和準確性低的問題,目前尚未提出有效的解決方案。
發明內容
本申請提供一種數據處理的方法、裝置、存儲介質以及電子設備,以解決相關技術中在數據存儲量較大的場景、或是數據時間為亂序的場景下數據去重操作的穩定性和準確性低的問題。
根據本申請的一個方面,提供了一種數據處理的方法。該方法包括:獲取預設時間段內不同的訪問設備對交易系統的訪問數據,得到多個訪問數據,其中,每個訪問數據中至少包括以下信息:訪問設備的設備ID、訪問時間;根據設備ID對多個訪問數據進行分組,得到多個數據集合,其中,每個數據集合中的訪問數據的設備ID相同;分別遍歷每個數據集合中的訪問數據,在遍歷的過程中生成標識,依次根據當前遍歷的訪問數據的訪問時間更新標識,并在每次更新標識的過程中對數據集合中重復出現的訪問數據進行去重,直至遍歷完畢,得到多個去重后的數據集合,其中,標識用于記錄已遍歷的各個訪問數據的訪問時間,重復出現的訪問數據是指設備ID和訪問時間均相同的訪問數據。
可選地,在遍歷的過程中生成標識包括:獲取數據集合中的訪問數據的最大訪問時間和最小訪問時間;計算最大訪問時間和最小訪問時間的時間差,得到第一差值,并生成標志位數量為第一差值的初始標識;將初始標識中的每個標志位的參數均設置為第一預設值,得到標識。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211099376.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種安防指紋密碼門鎖
- 下一篇:陶瓷連接裝置





