[發(fā)明專利]一種同步Hive數(shù)據(jù)的方法、系統(tǒng)、電子設備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011370159.4 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112395295A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設計)人: | 汪月;劉建輝;李亞飛;喬智;孫軍鋒 | 申請(專利權)人: | 北京明略昭輝科技有限公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/242;G06F16/2455;G06F16/27;G06F16/25;G06F16/16;G06F16/17;G06F16/182 |
| 代理公司: | 青島清泰聯(lián)信知識產(chǎn)權代理有限公司 37256 | 代理人: | 李紅巖 |
| 地址: | 100089 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 同步 hive 數(shù)據(jù) 方法 系統(tǒng) 電子設備 存儲 介質(zhì) | ||
本申請公開了一種同步Hive數(shù)據(jù)的方法、系統(tǒng)、電子設備及存儲介質(zhì)。一種同步Hive數(shù)據(jù)的方法包括:監(jiān)控步驟:hive hooks監(jiān)控hive的運行日志;數(shù)據(jù)檢測步驟:所述運行日志寫入到中間表中,使Impala輪詢所述中間表,并進行相應的刷新操作。本發(fā)明提出一種同步Hive數(shù)據(jù)的方法、系統(tǒng)、電子設備及存儲介質(zhì),監(jiān)控hive作業(yè)的運行日志,相應的對數(shù)據(jù)進行操作的日志抓取出來,寫入中間表,然后讓Impala輪詢這張中間表,進行相應的刷新操作。整個過程就是,我們幫Impala檢測出hive的數(shù)據(jù)處理,然后通知Impala做相應的刷新。解決了Impala和hive元數(shù)據(jù)無法實時同步的問題,無須手動刷新,實現(xiàn)自動化實時同步元數(shù)據(jù)。
技術領域
本申請涉及計算機技術領域,尤其涉及一種同步Hive數(shù)據(jù)的方法、系統(tǒng)、電子設備及存儲介質(zhì)。
背景技術
隨著現(xiàn)有互聯(lián)網(wǎng),物聯(lián)網(wǎng)的發(fā)展產(chǎn)生越來越多的數(shù)據(jù),傳統(tǒng)關系型數(shù)據(jù)庫已經(jīng)很難滿足數(shù)據(jù)倉庫的清洗和分析,因此基于Hive分布式集群的數(shù)據(jù)倉庫已逐步成為主流。Impala在傳統(tǒng)的MySQL或PostgreSQL數(shù)據(jù)庫稱為Metastore,Hive也在其相同的數(shù)據(jù)庫上保存此類型的數(shù)據(jù)。因此,Impala可以訪問由Hive定義或加載的表,也就是說Impala的操作對于hive來說是透明的,hive對于Impala的操作也是透明的。這種緩存機制優(yōu)點在于對于具有大量數(shù)據(jù)或多個分區(qū)的表,檢索表內(nèi)所有元數(shù)據(jù)可能會花費很長時間,在某些情況下需要幾分鐘,每個Impala節(jié)點緩存所有這些數(shù)據(jù),以便在未來對同一表進行查詢時重復使用,這樣就可以節(jié)省很多不必要的時間。但是通過其他手段更新元數(shù)據(jù)或者數(shù)據(jù)對于Impala是無感知的,例如通過hive建表,直接拷貝新的數(shù)據(jù)到HDFS上等。通過HIVE對數(shù)據(jù)進行操作或更新元數(shù)據(jù),Impala是無感知的,官方提供了兩種手動刷新的方式,分別是INVALIDATEMETADATA和REFRESH操作。但是使用起來相當不方便,并且不能保證Impala實時同步Hive元數(shù)據(jù),需要手動刷新不能自動同步元數(shù)據(jù)。
因此,針對以上現(xiàn)狀,做出了一種同步Hive數(shù)據(jù)的方法、系統(tǒng)、電子設備及存儲介質(zhì)。本申請監(jiān)控hive作業(yè)的運行日志,把相應的對數(shù)據(jù)進行操作的日志抓取出來,寫入中間表,然后讓Impala輪詢這張中間表,進行相應的刷新操作。整個過程就是,我們幫Impala檢測出hive的數(shù)據(jù)處理,然后通知Impala做相應的刷新。解決了Impala和hive元數(shù)據(jù)無法實時同步的問題,無須手動刷新,實現(xiàn)自動化實時同步元數(shù)據(jù)。
發(fā)明內(nèi)容
本申請實施例提供了一種同步Hive數(shù)據(jù)的方法、系統(tǒng)、電子設備及存儲介質(zhì),以至少解決相關技術中主觀因素影響的問題。
本發(fā)明提供了一種同步Hive數(shù)據(jù)的方法,包括:
監(jiān)控步驟:hive hooks監(jiān)控hive的運行日志;
中間表創(chuàng)建步驟:讀取所述日志中hive的元數(shù)據(jù),形成一張中間表;
輪詢步驟:Impala輪詢所述中間表,刷新所述元數(shù)據(jù)。
上述的同步Hive數(shù)據(jù)的方法,所述監(jiān)控步驟包括:
存儲步驟:存儲需要監(jiān)控的hive sql操作類型;
數(shù)據(jù)獲取步驟:當hive執(zhí)行操作時,輸出日志數(shù)據(jù),所述數(shù)據(jù)包括數(shù)據(jù)庫的元數(shù)據(jù),表的元數(shù)據(jù)。
上述的同步Hive數(shù)據(jù)的方法,所述中間表創(chuàng)建步驟包括,讀取所述日志中hive的操作、所述元數(shù)據(jù)、所述表的元數(shù)據(jù),形成一張中間表。
上述的同步Hive數(shù)據(jù)的方法,所述輪詢步驟包括,Impala輪詢所述中間表,根據(jù)hive的操作刷新所述元數(shù)據(jù)。
本發(fā)明還提供一種同步Hive數(shù)據(jù)的系統(tǒng),其中,基于hive hooks,適用于上述所述的同步Hive數(shù)據(jù)的方法,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略昭輝科技有限公司,未經(jīng)北京明略昭輝科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011370159.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 一種Hive調(diào)度方法及裝置
- 一種Hive表修復方法、裝置、設備及計算機可讀存儲介質(zhì)
- Hive表一致性校驗方法、系統(tǒng)、設備及存儲介質(zhì)
- 基于大數(shù)據(jù)平臺的HIVE任務調(diào)度方法、裝置、設備及存儲介質(zhì)
- 獲取中文數(shù)據(jù)庫結構的方法及裝置
- 一種hive離線同步校驗方法、裝置及電子設備
- Hive增量數(shù)據(jù)同步方法、裝置、計算機設備和存儲介質(zhì)
- 基于Hive的數(shù)據(jù)獲取方法、裝置及存儲介質(zhì)
- 一種基于Sqoop的多版本Hive支持方法、裝置、設備及介質(zhì)
- 一種關系型數(shù)據(jù)庫的數(shù)據(jù)全量導入Hive的方法
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





