[發明專利]數據質量監控方法及裝置有效
| 申請號: | 202110866720.6 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113553320B | 公開(公告)日: | 2022-09-02 |
| 發明(設計)人: | 張明磊;喻兆靖;張楊;鄭志升 | 申請(專利權)人: | 上海嗶哩嗶哩科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/27 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 饒文彬;鄧小玲 |
| 地址: | 200433 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 質量 監控 方法 裝置 | ||
本申請實施例提供了一種數據質量監控方法,所述方法包括:判斷在同一事務時間同步輸出的源數據的條數及同步輸入的數據的條數是否相同;若相同,則每隔第一預設時間從起始數據存儲節點中獲取在第一事務時間同步輸出的第一數據及從HUDI中獲取在第一事務時間同步至HUDI中的第二數據;根據第一數據和第二數據確定第一監控結果;每隔第二預設時間從HUDI中抽取出具有模擬標識信息的數據;根據抽取出的數據與所有預先插入至起始數據存儲節點中的模擬數據確定第二監控結果;根據第一監控結果與第二監控結果確定最終的數據質量監控結果。本申請可以提高數據質量。
技術領域
本申請實施例涉及數據處理技術領域,尤其涉及一種數據質量監控方法及裝置。
背景技術
隨著網絡技術的飛速發展,許多企業和團體通過構建工作流引擎來將每一天通過各種應用系統收集到的各種類型的數據同步至數據湖(HUDI)中,以解決數據共享及數據信息孤島的問題。現有技術中,工作流引擎一般包括多個數據計算節點以及多個數據存儲節點,通過工作流引擎中的多個數據計算節點和數據存儲節點的處理可以將存儲在起始數據存儲節點中的各種類型的源數據同步至數據湖(HUDI)中。
為了提升數據湖(HUDI)中的數據質量,現有技術中,在數據湖獲取到來自各種應用系統的源數據后,通過對源數據進行清洗整合來實現對數據的治理,以提高數據質量。但該方法,由于源數據量一般非常巨大,而數據湖進行清洗整合的運算資源較為有限,使得數據的清洗整合效率較低,不能滿足數據湖中大數據量的清洗整合需求。
因此,為了提高數據湖中的數據質量,亟需一種對數據入湖的過程中及時對數據質量進行審計的方案來發現數據入湖時存在的問題,以提高數據入湖的質量。
發明內容
本申請實施例的目的是提供一種數據質量監控方法,可以解決現有技術在數據入湖時不能及時發現數據入湖時存在的數據質量的問題。
本申請實施例的一個方面提供了一種數據質量監控方法,應用于工作流引擎中,所述工作流引擎用于將存儲在起始數據存儲節點中的源數據同步至數據湖HUDI中,所述數據質量監控方法包括:
判斷在同一事務時間從所述起始數據存儲節點中同步輸出的源數據的條數及同步輸入至所述數據湖HUDI的數據的條數是否相同;
若判定出數據的條數相同,則每隔第一預設時間從所述起始數據存儲節點中獲取在第一事務時間同步輸出的第一數據及從所述數據湖HUDI中獲取在所述第一事務時間同步至所述數據湖HUDI中的第二數據;
根據所述第一數據和所述第二數據確定第一數據質量監控結果;
每隔第二預設時間從所述數據湖HUDI中抽取出具有模擬標識信息的數據;
根據抽取出的數據與所有預先插入至所述起始數據存儲節點中的模擬數據確定第二數據質量監控結果;
根據所述第一數據質量監控結果與所述第二數據質量監控結果確定最終的數據質量監控結果。
可選的,所述方法還包括:
在將所述源數據同步至所述數據湖HUDI的過程中,統計在同一事務時間從所述起始數據存儲節點中同步輸出的源數據的條數及同步輸入至所述數據湖HUDI的數據的條數,其中,所述源數據包括預先插入至所述起始數據存儲節點中的具有模擬標識信息的模擬數據。
可選的,所述工作流引擎包括至少一個數據計算節點及至少一個數據存儲節點,所述數據存儲節點與所述數據計算節點一一對應,所述起始數據存儲節點為所述工作流引擎中的第一個數據存儲節點,所述在將所述源數據同步至所述數據湖HUDI的過程中,統計在同一事務時間從所述起始數據存儲節點中同步輸出的源數據的條數及同步輸入至所述數據湖HUDI的數據的條數包括:
在將所述源數據同步至所述數據湖HUDI的過程中,統計在同一事務時間各個數據計算節點的輸入及輸出數據的條數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海嗶哩嗶哩科技有限公司,未經上海嗶哩嗶哩科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110866720.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





