[發(fā)明專利]基于Hive數(shù)據(jù)倉庫的元數(shù)據(jù)讀取方法及裝置在審
| 申請?zhí)枺?/td> | 201811592142.6 | 申請日: | 2018-12-25 |
| 公開(公告)號: | CN109885620A | 公開(公告)日: | 2019-06-14 |
| 發(fā)明(設計)人: | 賴新明;林文輝;王杰斌;楊碩;鄧應強 | 申請(專利權)人: | 航天信息股份有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/2455 |
| 代理公司: | 北京工信聯(lián)合知識產權代理有限公司 11266 | 代理人: | 胡秋立 |
| 地址: | 100195 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 元數(shù)據(jù) 關鍵字段 讀取 緩存 安全管控系統(tǒng) 數(shù)據(jù)倉庫 存儲 讀取方式 發(fā)送 攜帶 讀取請求 響應 | ||
本發(fā)明公開了一種基于Hive數(shù)據(jù)倉庫的元數(shù)據(jù)讀取方法及裝置,該方法包括:接收安全管控系統(tǒng)發(fā)送的攜帶關鍵字段的讀取請求;確定本地緩存中是否存儲所述關鍵字段對應的元數(shù)據(jù);若確定所述本地緩存中存儲所述關鍵字段對應的元數(shù)據(jù),則向所述安全管控系統(tǒng)發(fā)送攜帶所述關鍵字段對應的元數(shù)據(jù)的讀取響應;若確定所述本地緩存中未存儲所述關鍵字段對應的元數(shù)據(jù),則以當前生效的第一讀取方式從所述Hive數(shù)據(jù)倉庫讀取所述關鍵字段對應的元數(shù)據(jù),向所述安全管控系統(tǒng)發(fā)送攜帶所述關鍵字段對應的元數(shù)據(jù)的讀取響應。該方案可以實現(xiàn)高效、便捷的元數(shù)據(jù)讀取方式。
技術領域
本發(fā)明涉及數(shù)據(jù)讀取技術領域,尤指一種基于Hive數(shù)據(jù)倉庫的元數(shù)據(jù)讀取方法及裝置。
背景技術
隨著大數(shù)據(jù)技術的日益完善,越來越多的企業(yè)開始使用Hadoop平臺來管理自己數(shù)據(jù)資源。Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結構化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的結構化查詢語言(Structured Query Language,SQL)查詢功能,可以將SQL語句轉換為MapReduce任務進行運行。其優(yōu)點是學習成本低,可以通過SQL語句快速實現(xiàn)簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應用,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。同時Hive作為Hadoop生態(tài)的一員,其擁有管理海量數(shù)據(jù)的能力,能對海量數(shù)據(jù)進行統(tǒng)計分析計算,滿足企業(yè)相關業(yè)務需要。
通常Hadoop平臺會作為一個基礎設施在企業(yè)范圍內使用,因此Hive的安全管控顯的尤為重要,比如多個部門需要使用到Hive數(shù)據(jù)倉庫,其中a部門需要分析涉密數(shù)據(jù),那么如何對Hive數(shù)據(jù)倉庫進行管控,使得這些數(shù)據(jù)其他部門是無權訪問的呢?
為解決上述問題,需要啟用一個對用戶操作進行監(jiān)控的框架,使每個用戶的操作都在設定的權限范圍內,這個框架就是---Apache Sentry。Apache Sentry是運行在Hadoop平臺上的基于細粒度的數(shù)據(jù)、元數(shù)據(jù)授權框架。Apache Sentry可以和Hive數(shù)據(jù)倉庫緊密結合,使得Hive數(shù)據(jù)倉庫上的安全管控可以做到非常的細粒度,且配合Hive數(shù)據(jù)倉庫的thrift服務易于實現(xiàn)安全管控業(yè)務系統(tǒng)。
Apache Sentry的出現(xiàn)基本解決了Hive數(shù)據(jù)倉庫的安全管控問題,但它有一個缺點:對于需要管控Hive數(shù)據(jù)倉庫操作安全的業(yè)務系統(tǒng),維護一張角色到權限的數(shù)據(jù)表,每次用戶需要操作Hive數(shù)據(jù)倉庫時,Sentry會在操作前檢驗權限的合法性達到管控的目的。在更新角色的權限時,通常需要事先獲取Hive數(shù)據(jù)倉庫的元數(shù)據(jù),以便業(yè)務系統(tǒng)的正確賦權。當權限粒度太細,比如說列級別權限,Sentry需要遍歷數(shù)據(jù)庫、數(shù)據(jù)表和數(shù)據(jù)列,使三級遞歸的性能消耗很大。
對于此問題官方的兩個解決思路是:
第一個思路,讀取元數(shù)據(jù)庫,Hive數(shù)據(jù)倉庫組件啟動需要有元數(shù)據(jù)庫的支持,默認是postgre,可選mysql。元數(shù)據(jù)庫中保存所有Hive數(shù)據(jù)倉庫的數(shù)據(jù)庫、數(shù)據(jù)表、數(shù)據(jù)列的元數(shù)據(jù)。元數(shù)據(jù)庫再通過一些自身的連接權限控制來保證基本的安全性。此方法就是讓權限管控業(yè)務系統(tǒng)直接連接元數(shù)據(jù)庫,再解析出整個Hive數(shù)據(jù)倉庫中各數(shù)據(jù)表的元數(shù)據(jù)以供給業(yè)務系統(tǒng)使用。
第二個思路,定時器更新,官方認為Hive數(shù)據(jù)倉庫的元數(shù)據(jù)變動并不頻繁,因此可以使用Linux系統(tǒng)的定時器任務,定時對元數(shù)據(jù)進行更新。
對于讀取元數(shù)據(jù)庫的解決思路,由于不同環(huán)境下業(yè)務系統(tǒng)的元數(shù)據(jù)庫配置不盡相同,且很多時候為了安全性元數(shù)據(jù)庫的用戶密碼不會公開,故使用上還是不靈活。定時器更新,如果定時間隔過短則依然消耗大量集群算力,如果定時間隔過長則在更新間隔期內用戶無法讀取到最新元數(shù)據(jù),安全管控系統(tǒng)便形同虛設。
由上可見,Hive數(shù)據(jù)倉庫的安全管控已經相對完善,但是在Hive數(shù)據(jù)倉庫的元數(shù)據(jù)讀取時還需要更加高效、便捷的方法。
發(fā)明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天信息股份有限公司,未經航天信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811592142.6/2.html,轉載請聲明來源鉆瓜專利網。
- 元數(shù)據(jù)存取控制系統(tǒng)及其方法、以及接收裝置、發(fā)送裝置
- 一種云存儲客戶端的低延遲元數(shù)據(jù)訪問方法
- 熱點元數(shù)據(jù)訪問控制方法和服務器
- 在多個階段高效地存儲和檢索數(shù)據(jù)和元數(shù)據(jù)的方法和系統(tǒng)
- 元數(shù)據(jù)節(jié)點集群的擴容方法、系統(tǒng)、設備和存儲介質
- 一種元數(shù)據(jù)緩存管理方法和裝置
- 元數(shù)據(jù)管理方法、裝置、計算機設備及存儲介質
- 一種元數(shù)據(jù)管理方法及裝置、設備、存儲介質
- 用于存儲管理的方法、設備和計算機程序產品
- 論文元數(shù)據(jù)的檢測方法及裝置





