[發(fā)明專利]一種數(shù)據(jù)熱度統(tǒng)計系統(tǒng)和方法有效
| 申請?zhí)枺?/td> | 201710374717.6 | 申請日: | 2017-05-24 |
| 公開(公告)號: | CN108241725B | 公開(公告)日: | 2019-07-05 |
| 發(fā)明(設(shè)計)人: | 吳宏志;韓東亮 | 申請(專利權(quán))人: | 新華三大數(shù)據(jù)技術(shù)有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28 |
| 代理公司: | 北京博思佳知識產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 450000 河南省鄭州市高新技*** | 國省代碼: | 河南;41 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 服務(wù)端接口模塊 查詢 數(shù)據(jù)熱度 客戶端接口模塊 數(shù)據(jù)訪問模型 存儲模塊 統(tǒng)計系統(tǒng) 業(yè)務(wù)解析 服務(wù)端 客戶端 數(shù)據(jù)倉庫 預(yù)先定義 閾值確定 映射 熱度 記錄 申請 統(tǒng)計 | ||
本申請?zhí)峁┮环N數(shù)據(jù)熱度統(tǒng)計系統(tǒng)和方法,該系統(tǒng)包括客戶端和服務(wù)端,客戶端包括業(yè)務(wù)解析模塊和客戶端接口模塊,服務(wù)端包括服務(wù)端接口模塊和存儲模塊;業(yè)務(wù)解析模塊,用于獲取Hive數(shù)據(jù)倉庫中被查詢的表/列的信息以及被查詢時間;客戶端接口模塊,用于將獲取的被查詢的表/列的信息以及被查詢時間發(fā)送給服務(wù)端接口模塊;服務(wù)端接口模塊,用于接收上述內(nèi)容,統(tǒng)計在最近M個單位時間內(nèi)所述表/列被查詢的次數(shù),將所述表/列映射到預(yù)先定義的數(shù)據(jù)訪問模型;根據(jù)數(shù)據(jù)訪問模型的熱度閾值確定所述表/列的數(shù)據(jù)熱度;存儲模塊,用于記錄服務(wù)端接口模塊接收的被查詢的表/列的信息、被查詢時間以及所述表/列的數(shù)據(jù)熱度。
技術(shù)領(lǐng)域
本申請涉及數(shù)據(jù)庫技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)熱度統(tǒng)計系統(tǒng)和方法。
背景技術(shù)
隨著數(shù)據(jù)海量劇增,單一的計算機已經(jīng)不能存儲海量數(shù)據(jù),因此,分布式集群受到了廣泛的關(guān)注。在分布式集群中,可以將數(shù)據(jù)分布到多臺計算機中存儲并且可以實現(xiàn)分布式計算。Hadoop是分布式系統(tǒng)的基礎(chǔ)架構(gòu),用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序,充分利用廉價計算機集群的能力對數(shù)據(jù)進行高速運算和存儲。
Hive是建立在Hadoop上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。Hive定義了簡單的類SQL查詢語言,稱為HQL(HiveQL),它允許熟悉SQL的用戶查詢數(shù)據(jù)。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N數(shù)據(jù)熱度統(tǒng)計系統(tǒng)和方法,用以對Hive數(shù)據(jù)倉庫中的數(shù)據(jù)進行數(shù)據(jù)熱度統(tǒng)計。
具體地,本申請是通過如下技術(shù)方案實現(xiàn)的:
本申請第一方面,提供了一種數(shù)據(jù)熱度統(tǒng)計系統(tǒng),包括客戶端和服務(wù)端,所述客戶端包括業(yè)務(wù)解析模塊和客戶端接口模塊,所述服務(wù)端包括服務(wù)端接口模塊和存儲模塊,其中:
所述業(yè)務(wù)解析模塊,用于獲取Hive數(shù)據(jù)倉庫中被查詢的表和/或列的信息以及被查詢時間;
所述客戶端接口模塊,用于將所述業(yè)務(wù)解析模塊獲取的被查詢的表和/或列的信息以及被查詢時間發(fā)送給所述服務(wù)端接口模塊;
所述服務(wù)端接口模塊,用于接收所述被查詢的表和/或列的信息以及被查詢時間;還用于在接收到統(tǒng)計指令或統(tǒng)計周期到達時,統(tǒng)計在最近M個單位時間內(nèi)所述被查詢的表和/或列的被查詢次數(shù),將所述被查詢的表和/或列映射到預(yù)先定義的數(shù)據(jù)訪問模型;根據(jù)所述數(shù)據(jù)訪問模型的熱度閾值,確定所述被查詢的表和/或列的數(shù)據(jù)熱度;所述M為大于0的整數(shù);
所述存儲模塊,用于記錄所述服務(wù)端接口模塊接收的被查詢的表和/或列的信息以及被查詢時間;還用于記錄所述被查詢的表和/或列的數(shù)據(jù)熱度。
本申請第二方面,提供了一種數(shù)據(jù)熱度統(tǒng)計方法,所述方法應(yīng)用于服務(wù)端,所述方法包括:
接收Hive數(shù)據(jù)倉庫中被查詢的表和/或列的信息以及被查詢時間;
在接收到統(tǒng)計指令或統(tǒng)計周期到達時,統(tǒng)計在最近M個單位時間內(nèi)所述被查詢的表和/或列被查詢的被查詢次數(shù),將所述被查詢的表和/或列映射到預(yù)先定義的數(shù)據(jù)訪問模型;所述M為大于0的整數(shù);
根據(jù)所述數(shù)據(jù)訪問模型的熱度閾值,確定所述被查詢的表和/或列的數(shù)據(jù)熱度。
由以上技術(shù)方案可以看出,本申請中,實現(xiàn)了對Hive數(shù)據(jù)倉庫中表和/或列的被查詢次數(shù)的統(tǒng)計,以及實現(xiàn)了對Hive數(shù)據(jù)倉庫中的表和/或列的熱度統(tǒng)計,并且本申請中的統(tǒng)計級別可以精確到列的級別。
附圖說明
圖1是Hive的技術(shù)架構(gòu)示意圖;
圖2是本申請?zhí)峁┑囊环N數(shù)據(jù)熱度統(tǒng)計系統(tǒng)的架構(gòu)圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華三大數(shù)據(jù)技術(shù)有限公司,未經(jīng)新華三大數(shù)據(jù)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710374717.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 客戶端接口機、服務(wù)端接口機及其消息處理方法、系統(tǒng)
- 一種通信代理網(wǎng)關(guān)
- 基于服務(wù)端接口的性能測試腳本生成的方法
- 智能藥箱系統(tǒng)
- 一種家電通信代理網(wǎng)關(guān)和家電通信系統(tǒng)
- 一種數(shù)據(jù)熱度統(tǒng)計系統(tǒng)和方法
- 客戶端模擬接口數(shù)據(jù)的方法及裝置
- 用于開發(fā)智能合約的系統(tǒng)、方法和裝置
- 信息處理方法和裝置、電子設(shè)備和存儲介質(zhì)
- 一種基于中間件實現(xiàn)的工業(yè)互聯(lián)網(wǎng)應(yīng)用系統(tǒng)及實現(xiàn)方法
- 基于存儲設(shè)備的數(shù)據(jù)熱度確定方法、設(shè)備以及系統(tǒng)
- 數(shù)據(jù)熱度統(tǒng)計方法及裝置
- 商戶熱度計算方法、裝置、電子設(shè)備及可讀存儲介質(zhì)
- 一種熱點事件熱度量化方法及裝置
- 一種智能采購方法及系統(tǒng)、存儲介質(zhì)和電子裝置
- 一種分布式存儲系統(tǒng)數(shù)據(jù)熱度統(tǒng)計方法、裝置
- 一種基于熱度的日志結(jié)構(gòu)文件系統(tǒng)數(shù)據(jù)管理方法
- 一種基于數(shù)據(jù)熱度的數(shù)據(jù)清理方法、裝置及存儲介質(zhì)
- 基于深度學習的數(shù)據(jù)熱度統(tǒng)計方法及裝置
- 一種存儲緩存熱點數(shù)據(jù)自恢復(fù)方法、系統(tǒng)及存儲介質(zhì)





