[發明專利]用于ODS層和DW層之間的數據處理方法與系統在審
| 申請號: | 202110865928.6 | 申請日: | 2021-07-29 |
| 公開(公告)號: | CN113568966A | 公開(公告)日: | 2021-10-29 |
| 發明(設計)人: | 喻兆靖;張明磊;張楊 | 申請(專利權)人: | 上海嗶哩嗶哩科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/13;G06F16/182 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 王勇;鄧小玲 |
| 地址: | 200433 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 ods dw 之間 數據處理 方法 系統 | ||
本申請實施例提供了一種用于ODS層和DW層之間的數據處理方法,所述方法包括:從所述ODS層中讀取數據;將所述數據或對該數據進行處理后得到的已處理數據輸出到所述DW層;根據讀取的至少部分數據和輸出的至少部分數據,檢驗從所述ODS層到所述DW層的數據傳輸質量。本申請實施例提供的技術方案,通過引入校驗機制,可以保障DW層下游的數據質量。即,在數據全部湖化前,湖倉的過程中存在聯動,通過所述數據校驗操作對數據質量兜底。
技術領域
本申請實施例涉及流式數據傳輸與處理技術領域,尤其涉及一種用于ODS層和DW層之間的數據處理方法、裝置、計算機設備以及計算機可讀存儲介質,以及一種用于ODS層和DW層之間的數據處理系統。
背景技術
數據傳輸鏈路一般由數據源、網關、數據緩沖層、數據分發層和數據存儲層構成。當數據源產生新數據時,該新數據會最終落地到數據存儲層。數據存儲層包括ODS(操作數據存儲)層、DW(數據倉庫)層和ADS(應用數據存儲)層等。但是,在現有技術中,將ODS層的數據寫入到DW層,無法評估DW層的數據質量。
發明內容
本申請實施例的目的是提供一種用于ODS層和DW層之間的數據處理系統以及一種用于ODS層和DW層之間的數據處理方法、裝置、計算機設備以及計算機可讀存儲介質,用于解決以下問題:將ODS層的數據寫入到DW層,無法評估DW層的數據質量。
本申請實施例的一個方面提供了一種用于ODS層和DW層之間的數據處理系統,所述系統包括:
第一連接組件,用于從所述ODS層中讀取數據;
第二連接組件,用于將所述數據或對該數據進行處理后得到的已處理數據輸出到所述DW層;
數據校驗組件,用于:根據所述第一連接組件讀取的至少部分數據和所述第二連接組件輸出的至少部分數據,檢驗從所述ODS層到所述DW層的數據傳輸質量。
可選地,所述數據包括所述ODS層新增的一個或多個文件;
所述第一連接組件被配置流式數據接口和多個讀操作任務,其中:
所述流式數據接口,用于獲取所述一個或多個文件;
各個讀操作任務,用于根據所述流式數據接口的分配,從所述ODS層中讀取相應的文件。
可選地,所述流式數據接口,還用于:獲取上游節點提供的最新分區的分區增量索引;及根據所述分區增量索引,在所述ODS層中的最新分區下獲取所述一個或多個文件。
可選地,所述各個讀操作任務,還用于向所述流式數據接口發送文件讀取狀態;
所述流式數據接口,根據所述各個讀操作任務返回的文件讀取狀態,調整所述分配。
可選地,所述第二連接組件被配置多個流寫入操作任務和流寫入協調組件,其中:
各個流寫入操作任務,用于:對所述DW層進行數據寫入操作,并向所述流寫入協調組件匯報寫入進度;
所述流寫入協調組件,用于:根據各個流寫入操作任務匯報的寫入進度,確定當前分區的分區數據是否已經寫入完畢;若寫入完畢,則觸發所述數據校驗組件。
可選地,所述DW層提供有HUDI表;
所述第二連接組件,還用于:將所述數據或所述已處理數據寫入到所述HUDI表中。
可選地,所述寫入的方式為Append且不合并。
可選地,若將所述數據寫入到所述DW層;
所述數據校驗組件,用于:對比所述第一連接組件讀取的至少部分數據和所述第二連接組件輸出的至少部分數據是否一致;及根據比對結果確定所述數據傳輸質量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海嗶哩嗶哩科技有限公司,未經上海嗶哩嗶哩科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110865928.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種供電公司用電力電纜定距裁切裝置
- 下一篇:一種金屬坯立式連續鑄造設備





