[發(fā)明專利]hive表增量數(shù)據(jù)同步方法、裝置、計算機設備及存儲介質在審
| 申請?zhí)枺?/td> | 202011314157.3 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112416934A | 公開(公告)日: | 2021-02-26 |
| 發(fā)明(設計)人: | 趙鵬;徐淑華 | 申請(專利權)人: | 平安普惠企業(yè)管理有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/23;G06F16/27 |
| 代理公司: | 深圳市世聯(lián)合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | hive 增量 數(shù)據(jù) 同步 方法 裝置 計算機 設備 存儲 介質 | ||
本申請實施例屬于大數(shù)據(jù)領域,涉及一種hive表增量數(shù)據(jù)同步方法,包括根據(jù)觸發(fā)的數(shù)據(jù)同步指令,從目標數(shù)據(jù)表讀取待同步增量數(shù)據(jù);對于每條待同步增量數(shù)據(jù),確定待同步增量數(shù)據(jù)對應的已存數(shù)據(jù)在hive表中的分區(qū)目錄,并將所述分區(qū)目錄標記為變動目錄;對于每個變動目錄,調用對應的spark進程提取變動目錄中的已存數(shù)據(jù);在提取到的已存數(shù)據(jù)中確定保留數(shù)據(jù);將所述待同步增量數(shù)據(jù)和所述保留數(shù)據(jù)進行合并得到待存儲文件;通過各spark進程并行將各變動目錄中的已存數(shù)據(jù)替換為待存儲文件。本申請還提供一種hive表增量數(shù)據(jù)同步裝置、計算機設備及存儲介質。此外,本申請還涉及區(qū)塊鏈技術,待存儲文件可存儲于區(qū)塊鏈中。本申請?zhí)岣吡薶ive表增量數(shù)據(jù)的同步效率。
技術領域
本申請涉及大數(shù)據(jù)技術領域,尤其涉及一種hive表增量數(shù)據(jù)同步方法、裝置、計算機設備及存儲介質。
背景技術
隨著計算機技術的發(fā)展,每天的生產生活都會產生大量的數(shù)據(jù),使得大數(shù)據(jù)技術得到了極大的應用和發(fā)展。數(shù)據(jù)倉庫是大數(shù)據(jù)領域中的重要概念,它出于分析性報告和決策支持目的而創(chuàng)建,可以為企業(yè)各級別的決策制定過程,而HIVE又是當前一種主流的數(shù)據(jù)倉庫組件。
當前的數(shù)據(jù)倉庫組件HIVE,只能追加數(shù)據(jù),不允許對已經存儲的歷史數(shù)據(jù)進行修改。上游數(shù)據(jù)庫中的數(shù)據(jù)進行了更新修改會產生增量數(shù)據(jù),若要對增量數(shù)據(jù)進行同步,需要將整個HIVE表中的所有已存數(shù)據(jù)刪除,重新從上游同步所有數(shù)據(jù),造成IO資源浪費、增量數(shù)據(jù)同步效率低;且HIVE在執(zhí)行插入數(shù)據(jù)的操作時,只能將數(shù)據(jù)一條一條地插入,耗費時間較長,進一步使得增量數(shù)據(jù)同步效率低下。
發(fā)明內容
本申請實施例的目的在于提出一種hive表增量數(shù)據(jù)同步方法、裝置、計算機設備及存儲介質,以解決hive表增量數(shù)據(jù)同步效率較低的問題。
為了解決上述技術問題,本申請實施例提供一種hive表增量數(shù)據(jù)同步方法,采用了如下所述的技術方案:
根據(jù)觸發(fā)的數(shù)據(jù)同步指令,從目標數(shù)據(jù)表讀取待同步增量數(shù)據(jù);
對于每條待同步增量數(shù)據(jù),確定待同步增量數(shù)據(jù)對應的已存數(shù)據(jù)在hive表中的分區(qū)目錄,并將所述分區(qū)目錄標記為變動目錄;
對于每個變動目錄,調用對應的spark進程提取變動目錄中的已存數(shù)據(jù);
在提取到的已存數(shù)據(jù)中確定保留數(shù)據(jù);
將所述待同步增量數(shù)據(jù)和所述保留數(shù)據(jù)進行合并得到待存儲文件;
通過各spark進程并行將各變動目錄中的已存數(shù)據(jù)替換為待存儲文件。
進一步的,在所述根據(jù)觸發(fā)的數(shù)據(jù)同步指令,從目標數(shù)據(jù)表讀取待同步增量數(shù)據(jù)的步驟之前,還包括:
向設置有數(shù)據(jù)庫的存儲服務器發(fā)送數(shù)據(jù)查詢指令;
獲取所述存儲服務器根據(jù)所述數(shù)據(jù)查詢指令返回的所述數(shù)據(jù)庫的數(shù)據(jù)統(tǒng)計信息;
當所述數(shù)據(jù)統(tǒng)計信息未達到預設閾值時,將所述數(shù)據(jù)庫中的數(shù)據(jù)表設置為目標數(shù)據(jù)表。
進一步的,所述獲取所述存儲服務器根據(jù)所述數(shù)據(jù)查詢指令返回的所述數(shù)據(jù)庫的數(shù)據(jù)統(tǒng)計信息的步驟之后,還包括:
當所述數(shù)據(jù)統(tǒng)計信息達到預設閾值時,對所述數(shù)據(jù)庫進行監(jiān)測;
當監(jiān)測到所述目標數(shù)據(jù)庫發(fā)生數(shù)據(jù)變動時,將變動的數(shù)據(jù)作為待同步增量數(shù)據(jù)存儲到目標數(shù)據(jù)表中。
進一步的,所述對于每條待同步增量數(shù)據(jù),確定待同步增量數(shù)據(jù)對應的已存數(shù)據(jù)在hive表中的分區(qū)目錄,并將所述分區(qū)目錄標記為變動目錄的步驟包括:
對于每條待同步增量數(shù)據(jù),獲取待同步增量數(shù)據(jù)的創(chuàng)建時間;
在hive表中查詢所述創(chuàng)建時間所對應的分區(qū)目錄;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安普惠企業(yè)管理有限公司,未經平安普惠企業(yè)管理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011314157.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





