[發(fā)明專利]一種基于hbase的上網(wǎng)日志數(shù)據(jù)查詢方法及裝置在審
| 申請?zhí)枺?/td> | 201410471568.1 | 申請日: | 2014-09-16 |
| 公開(公告)號: | CN104252536A | 公開(公告)日: | 2014-12-31 |
| 發(fā)明(設(shè)計)人: | 朱愛軍;陳威;葉瀟;席先廣 | 申請(專利權(quán))人: | 福建新大陸軟件工程有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 福州市鼓樓區(qū)博深專利代理事務(wù)所(普通合伙) 35214 | 代理人: | 林志崢 |
| 地址: | 350000 福建省福*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 hbase 上網(wǎng) 日志 數(shù)據(jù) 查詢 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及非結(jié)構(gòu)化數(shù)據(jù)存儲與查詢領(lǐng)域,特別是涉及一種基于hbase的上網(wǎng)日志數(shù)據(jù)查詢方法及裝置。
背景技術(shù)
不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。
在移動互聯(lián)網(wǎng)不斷發(fā)展、信息量不斷膨脹的大環(huán)境背景下,各種移動通信公司的大型系統(tǒng)都記錄下了海量的用戶上網(wǎng)日志。很多公司仍采用傳統(tǒng)的ETL工具進行數(shù)據(jù)采集、分析、查詢,負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時中間層后進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
隨著移動互聯(lián)網(wǎng)時代的到來,手機終端應(yīng)用的普及,面對日益增長的海量上網(wǎng)日志數(shù)據(jù),原系統(tǒng)傳統(tǒng)的ETL工具實際已徹底失效,主要原因是數(shù)據(jù)格式轉(zhuǎn)換的開銷太大,在性能上無法滿足海量數(shù)據(jù)的采集、分析、查詢需求。傳統(tǒng)的數(shù)據(jù)分析算法必須依靠計算機性能的提升來滿足,缺少一種分布式的可擴展的架構(gòu)的支持;并且傳統(tǒng)的上網(wǎng)日志分析和數(shù)據(jù)統(tǒng)計及數(shù)據(jù)查詢方法受到單機內(nèi)外存、CPU資源有限的限制,在進行海量上網(wǎng)日志數(shù)據(jù)的分析查詢時遇到了瓶頸。
在這種背景下,系統(tǒng)必須尋求一種新的分布式的可擴展的數(shù)據(jù)庫架構(gòu),在硬件基本不變的情況下來滿足海量數(shù)據(jù)的采集、分析及查詢功能。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是:提供一種基于hbase的上網(wǎng)日志數(shù)據(jù)查詢方法,能夠解決現(xiàn)有技術(shù)中大數(shù)據(jù)量分析、查詢效率低的問題。
為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:
一種基于hbase的上網(wǎng)日志數(shù)據(jù)查詢方法,包括:通過客戶端輸入RowKey字段值,向bhase發(fā)送上網(wǎng)日志查詢請求;hbase根據(jù)查詢請求所輸入的RowKey字段值獲取滿足條件的RowKey范圍;其中,所述RowKey的長度小于預(yù)設(shè)的長度閾值;hbase根據(jù)所述RowKey字段值在所述的RowKey范圍內(nèi)找到對應(yīng)的列族范圍,并將查找到列族中的列值返回給客戶端,其中,所有上網(wǎng)日志字段都存儲在一個列族的一個列中;客戶端接收并解析所述列值。
為解決上述技術(shù)問題,本發(fā)明還提供另一技術(shù)方案:
一種基于hbase的上網(wǎng)日志數(shù)據(jù)查詢裝置,包括請求模塊、RowKey范圍確定模塊、列族范圍確定模塊和解析模塊;所述請求模塊用于通過客戶端輸入RowKey字段值,向bhase發(fā)送上網(wǎng)日志查詢請求;所述RowKey范圍確定模塊用于hbase根據(jù)查詢請求所輸入的RowKey字段值獲取滿足條件的RowKey范圍;其中,所述RowKey的長度小于預(yù)設(shè)的長度閾值;所述列族范圍確定模塊用于hbase根據(jù)所述RowKey字段值在所述的RowKey范圍內(nèi)找到對應(yīng)的列族范圍,并將查找到列族中的列值返回給客戶端,其中,所有上網(wǎng)日志字段都存儲在一個列族的一個列中;所述解析模塊用于客戶端接收并解析所述列值。
本發(fā)明的有益效果在于:區(qū)別于現(xiàn)有技術(shù)中ETL工具在性能上無法滿足海量數(shù)據(jù)的采集、分析、查詢需求,本發(fā)明引入hbase分布式數(shù)據(jù)庫用于存儲清單數(shù)據(jù),使在硬件基本不變的情況滿足海量數(shù)據(jù)的采集、分析及查詢功能,并且通過控制RowKey的長度與內(nèi)容,同時優(yōu)化列存儲的字段個數(shù)與保存格式,既提高了上網(wǎng)日志數(shù)據(jù)的查詢性能,又能夠降低存儲空間占用,方便外部接口直接并發(fā)查詢上網(wǎng)清單數(shù)據(jù)。
附圖說明
圖1為本發(fā)明基于hbase的上網(wǎng)日志數(shù)據(jù)查詢方法一實施方式的流程圖;
圖2為本發(fā)明基于hbase的上網(wǎng)日志數(shù)據(jù)查詢裝置一實施方式的功能框圖;
圖3為本發(fā)明基于hbase的上網(wǎng)日志數(shù)據(jù)查詢方法一實施方式的過程示意圖;
標(biāo)號說明:
10、請求模塊;??20、RowKey范圍確定模塊;??30、列族范圍確定模塊;??40、解析模塊。
具體實施方式
為詳細(xì)說明本發(fā)明的技術(shù)內(nèi)容、所實現(xiàn)目的及效果,以下結(jié)合實施方式并配合附圖予以說明。
hbase–HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用hbase技術(shù)可在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于福建新大陸軟件工程有限公司,未經(jīng)福建新大陸軟件工程有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410471568.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種Sn-Zn合金電鍍液
- 下一篇:搜索方法及裝置
- 一種基于thrift服務(wù)的HBase安全插件
- 一種實現(xiàn)Windows下連接控制Hbase的方法及裝置
- 一種基于大數(shù)據(jù)的數(shù)據(jù)脫敏方法和Hbase脫敏處理系統(tǒng)
- 多個集群數(shù)據(jù)一致性的控制方法、裝置、設(shè)備及存儲介質(zhì)
- HBase數(shù)據(jù)遷移方法及遷移裝置
- 基于phoenix改造hbase舊系統(tǒng)的索引同步方法、裝置及系統(tǒng)
- 一種格式化HBase數(shù)據(jù)的方法
- 一種多HBase集群訪問方法、裝置及存儲介質(zhì)
- HBase集群平衡方法、裝置、電子設(shè)備和存儲介質(zhì)
- 一種基于AEP內(nèi)存的HBase集群性能優(yōu)化方法及系統(tǒng)
- 節(jié)省無線上網(wǎng)流量的方法及相關(guān)終端
- 一種上網(wǎng)控制方法、系統(tǒng)及上網(wǎng)終端
- 上網(wǎng)卡與上網(wǎng)卡的上網(wǎng)方法
- 上網(wǎng)卡的上網(wǎng)方法和上網(wǎng)卡
- 上網(wǎng)控制裝置、系統(tǒng)及方法
- 基于PON家庭終端實現(xiàn)上網(wǎng)時間控制的方法
- 一種用于辨別WIFI漫游故障的方法
- 一種上網(wǎng)行為管理系統(tǒng)、設(shè)備及方法
- 上網(wǎng)信息的獲取方法、裝置、電子設(shè)備及計算機存儲介質(zhì)
- 上網(wǎng)信息的獲取方法、裝置、電子設(shè)備及計算機存儲介質(zhì)





