[發(fā)明專利]用于ODS層和DW層之間的數(shù)據(jù)處理方法與系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110865928.6 | 申請(qǐng)日: | 2021-07-29 |
| 公開(公告)號(hào): | CN113568966A | 公開(公告)日: | 2021-10-29 |
| 發(fā)明(設(shè)計(jì))人: | 喻兆靖;張明磊;張楊 | 申請(qǐng)(專利權(quán))人: | 上海嗶哩嗶哩科技有限公司 |
| 主分類號(hào): | G06F16/25 | 分類號(hào): | G06F16/25;G06F16/13;G06F16/182 |
| 代理公司: | 北京英特普羅知識(shí)產(chǎn)權(quán)代理有限公司 11015 | 代理人: | 王勇;鄧小玲 |
| 地址: | 200433 上海市*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 ods dw 之間 數(shù)據(jù)處理 方法 系統(tǒng) | ||
1.一種用于操作數(shù)據(jù)存儲(chǔ)層(ODS層)和數(shù)據(jù)倉(cāng)庫(kù)層(DW層)之間的數(shù)據(jù)處理系統(tǒng),其特征在于,所述系統(tǒng)包括:
第一連接組件,用于從所述ODS層中讀取數(shù)據(jù);
第二連接組件,用于將所述數(shù)據(jù)或?qū)υ摂?shù)據(jù)進(jìn)行處理后得到的已處理數(shù)據(jù)輸出到所述DW層;
數(shù)據(jù)校驗(yàn)組件,用于:根據(jù)所述第一連接組件讀取的至少部分?jǐn)?shù)據(jù)和所述第二連接組件輸出的至少部分?jǐn)?shù)據(jù),檢驗(yàn)從所述ODS層到所述DW層的數(shù)據(jù)傳輸質(zhì)量。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其特征在于,所述數(shù)據(jù)包括所述ODS層新增的一個(gè)或多個(gè)文件;
所述第一連接組件被配置流式數(shù)據(jù)接口和多個(gè)讀操作任務(wù),其中:
所述流式數(shù)據(jù)接口,用于獲取所述一個(gè)或多個(gè)文件;
各個(gè)讀操作任務(wù),用于根據(jù)所述流式數(shù)據(jù)接口的分配,從所述ODS層中讀取相應(yīng)的文件。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理系統(tǒng),其特征在于,
所述流式數(shù)據(jù)接口,還用于:獲取上游節(jié)點(diǎn)提供的最新分區(qū)的分區(qū)增量索引;及根據(jù)所述分區(qū)增量索引,在所述ODS層中的最新分區(qū)下獲取所述一個(gè)或多個(gè)文件。
4.根據(jù)權(quán)利要求2所述的數(shù)據(jù)處理系統(tǒng),其特征在于,
所述各個(gè)讀操作任務(wù),還用于向所述流式數(shù)據(jù)接口發(fā)送文件讀取狀態(tài);
所述流式數(shù)據(jù)接口,根據(jù)所述各個(gè)讀操作任務(wù)返回的文件讀取狀態(tài),調(diào)整所述分配。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其特征在于,
所述第二連接組件被配置多個(gè)流寫入操作任務(wù)和流寫入?yún)f(xié)調(diào)組件,其中:
各個(gè)流寫入操作任務(wù),用于:對(duì)所述DW層進(jìn)行數(shù)據(jù)寫入操作,并向所述流寫入?yún)f(xié)調(diào)組件匯報(bào)寫入進(jìn)度;
所述流寫入?yún)f(xié)調(diào)組件,用于:根據(jù)各個(gè)流寫入操作任務(wù)匯報(bào)的寫入進(jìn)度,確定當(dāng)前分區(qū)的分區(qū)數(shù)據(jù)是否已經(jīng)寫入完畢;若寫入完畢,則觸發(fā)所述數(shù)據(jù)校驗(yàn)組件。
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理系統(tǒng),其特征在于,所述DW層提供有HUDI表;
所述第二連接組件,還用于:將所述數(shù)據(jù)或所述已處理數(shù)據(jù)寫入到所述HUDI表中。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理系統(tǒng),其特征在于,所述寫入的方式為Append且不合并。
8.根據(jù)權(quán)利要求1至7任意一項(xiàng)所述的數(shù)據(jù)處理系統(tǒng),其特征在于,若將所述數(shù)據(jù)寫入到所述DW層;
所述數(shù)據(jù)校驗(yàn)組件,用于:對(duì)比所述第一連接組件讀取的至少部分?jǐn)?shù)據(jù)和所述第二連接組件輸出的至少部分?jǐn)?shù)據(jù)是否一致;及根據(jù)比對(duì)結(jié)果確定所述數(shù)據(jù)傳輸質(zhì)量。
9.根據(jù)權(quán)利要求1至7任意一項(xiàng)所述的數(shù)據(jù)處理系統(tǒng),其特征在于,若將所述已處理數(shù)據(jù)寫入到所述DW層;
所述數(shù)據(jù)校驗(yàn)組件,用于:根據(jù)針對(duì)所述數(shù)據(jù)的預(yù)設(shè)處理邏輯,對(duì)所述第一連接組件讀取的至少部分?jǐn)?shù)據(jù)進(jìn)行離線處理,得到離線數(shù)據(jù);對(duì)比所述離線數(shù)據(jù)和所述第二連接組件輸出的至少部分?jǐn)?shù)據(jù)是否一致;及根據(jù)比對(duì)結(jié)果確定所述數(shù)據(jù)傳輸質(zhì)量。
10.根據(jù)權(quán)利要求1至7任意一項(xiàng)所述的數(shù)據(jù)處理系統(tǒng),其特征在于,還包括:
數(shù)據(jù)處理組件,用于:根據(jù)預(yù)設(shè)處理邏輯處理所述數(shù)據(jù),以得到所述已處理數(shù)據(jù)。
11.根據(jù)權(quán)利要求1至7任意一項(xiàng)所述的數(shù)據(jù)處理系統(tǒng),其特征在于,還包括:
分區(qū)提交組件,用于:提交已經(jīng)寫入到所述DW層的分區(qū)數(shù)據(jù)的分區(qū)信息;
其中,所述分區(qū)信息包括HUDI表的HUID分區(qū)信息和兼容Hive表的Hive分區(qū)信息。
12.一種用于ODS層和DW層之間的數(shù)據(jù)處理方法,其特征在于,所述方法包括:
從所述ODS層中讀取數(shù)據(jù);
將所述數(shù)據(jù)或?qū)υ摂?shù)據(jù)進(jìn)行處理后得到的已處理數(shù)據(jù)輸出到所述DW層;
根據(jù)讀取的至少部分?jǐn)?shù)據(jù)和輸出的至少部分?jǐn)?shù)據(jù),檢驗(yàn)從所述ODS層到所述DW層的數(shù)據(jù)傳輸質(zhì)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海嗶哩嗶哩科技有限公司,未經(jīng)上海嗶哩嗶哩科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110865928.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





