[發明專利]高時效的數據加載入數據湖的方法及系統有效
| 申請號: | 202010165368.9 | 申請日: | 2020-03-11 |
| 公開(公告)號: | CN111367984B | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 王能;袁一;翁曉俊;王之樂 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/27;G06F16/182;G06F16/178 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;湯在彥 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 時效 數據 載入 方法 系統 | ||
1.一種高時效的數據加載入數據湖的方法,其特征在于,包括:
通過數據庫復制工具將數據庫源表的數據變更記錄同步到Kafka消息隊列;
高時效入湖服務系統根據數據湖注冊的源表登記信息從所述Kafka消息隊列加載所述數據變更記錄到分布式文件系統,按照時間段分割成若干個時間分區并確定最大可用分區;
將所述最大可用分區載入到臨時增量表中;
所述數據湖訪問所述高時效入湖服務系統獲取最大可用分區信息,進而從所述臨時增量表中加載所述最大可用分區到本地的存量表中。
2.根據權利要求1所述的高時效的數據加載入數據湖的方法,其特征在于,還包括:
在所述高時效入湖服務系統服務中斷重新啟動后,刪除當前最大可用分區的下一個時間分區之后的所有時間分區;
將當前最大可用分區的下一個時間分區中除去文件名中的位移值最小的文件外的其他所有文件刪除,并清空所述文件名中的位移值最小的文件;
將所述Kafka消息隊列的消費位點回退到所述文件名中的位移值最小的文件的位移值,并根據所述文件名中的位移值最小的文件消費所述Kafka消息隊列中的數據。
3.根據權利要求1所述的高時效的數據加載入數據湖的方法,其特征在于,還包括:
若從Kafka消息隊列獲取的數據變更記錄的時間字段屬于當前時間分區,則將該數據變更記錄寫入當前時間分區;
若從Kafka消息隊列獲取的數據變更記錄的時間字段大于當前時間分區的右邊界,則將該數據變更記錄寫入當前時間分區的下一個時間分區;
若從Kafka消息隊列獲取的數據變更記錄的時間字段小于當前時間分區的左邊界并且該時間字段所屬的時間分區小于或等于最大可用分區,則將該數據變更記錄寫入預設的錯誤文件;
若從Kafka消息隊列獲取的數據變更記錄的時間字段小于當前時間分區的左邊界并且該時間字段所屬的時間分區大于最大可用分區,則將該數據變更記錄寫入該時間字段所屬的時間分區。
4.根據權利要求3所述的高時效的數據加載入數據湖的方法,其特征在于,將數據變更記錄寫入時間分區,具體包括:
獲取數據變更記錄在Kafka消息隊列中的位移值;
根據所述位移值在時間分區中創建一個文件并寫入數據變更記錄,其中,所述文件的文件名中包含所述位移值。
5.根據權利要求1所述的高時效的數據加載入數據湖的方法,其特征在于,還包括:
若Kafka消息隊列中沒有數據變更記錄并且所述數據庫復制工具的數據復制服務狀態為正常,在當前時間大于當前最大可用分區的右邊界加上預設的超時參數時,在當前最大可用分區的下一個時間分區中生成一個空文件,以便后續數據變更記錄寫入,其中,所述空文件的文件名中包含所述Kafka消息隊列中的最大位移值加一。
6.根據權利要求1所述的高時效的數據加載入數據湖的方法,其特征在于,還包括:
若從Kafka消息隊列獲取的數據變更記錄的時間字段大于當前最大可用分區的下一時間分區的右邊界加上預設的超時參數時,更新最大可用分區為當前最大可用分區的下一時間分區。
7.根據權利要求1所述的高時效的數據加載入數據湖的方法,其特征在于,還包括:
若Kafka消息隊列中沒有數據變更記錄并且所述數據庫復制工具的數據復制服務狀態為正常,在當前時間大于當前最大可用分區的下一時間分區的右邊界加上預設的超時參數時,更新最大可用分區為當前最大可用分區的下一時間分區。
8.根據權利要求1所述的高時效的數據加載入數據湖的方法,其特征在于,所述高時效入湖服務系統根據數據湖注冊的源表登記信息從所述Kafka消息隊列加載所述數據變更記錄到分布式文件系統,按照時間段分割成若干個時間分區并確定最大可用分區,包括:
高時效入湖服務系統根據數據湖注冊的源表登記信息從所述Kafka消息隊列獲取所述數據變更記錄寫入HDFS文件,按照時間段分割成多個時間分區并生成時間分區目錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010165368.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種臨床護理服烘干殺菌裝置
- 下一篇:一種非侵入式電氣負載智能識別方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





