[發(fā)明專利]一種基于Hadoop的用戶行為數(shù)據(jù)處理方法在審
| 申請?zhí)枺?/td> | 201710191813.7 | 申請日: | 2017-03-27 |
| 公開(公告)號: | CN106951552A | 公開(公告)日: | 2017-07-14 |
| 發(fā)明(設(shè)計)人: | 陳粵龍;陳敏俊;溫亮生;張治中;趙瑞莉 | 申請(專利權(quán))人: | 重慶郵電大學(xué);中移(杭州)信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同恒源知識產(chǎn)權(quán)代理有限公司11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;85 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 hadoop 用戶 行為 數(shù)據(jù)處理 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于通信技術(shù)領(lǐng)域,涉及一種基于Hadoop的用戶行為數(shù)據(jù)處理方法。
背景技術(shù)
隨著4G網(wǎng)絡(luò)的商用和廣泛部署,移動通信業(yè)務(wù)已經(jīng)正式全面進入移動互聯(lián)網(wǎng)時代,飛速發(fā)展的移動網(wǎng)絡(luò)帶寬直接帶來繁雜的應(yīng)用和用戶行為,而通信網(wǎng)絡(luò)中的數(shù)據(jù)復(fù)雜度、信息量都隨之迅速增長,導(dǎo)致數(shù)據(jù)處理的復(fù)雜度和運算量要求都隨之有了更高的要求,傳統(tǒng)數(shù)據(jù)庫體系的數(shù)據(jù)處理能力受到了極大的挑戰(zhàn)。而面對海量數(shù)據(jù)處理需求和更低的時延性限制要求,傳統(tǒng)數(shù)據(jù)系統(tǒng)投入的CPU計算能力、內(nèi)存響應(yīng)和吞吐、網(wǎng)絡(luò)帶寬都有著巨大的基準,且在高安全性,多中心的發(fā)展趨勢下面臨諸多的瓶頸。大數(shù)據(jù)時代的到來使單節(jié)點的計算模式已經(jīng)不能滿足數(shù)據(jù)處理的需求,分布式數(shù)據(jù)處理與存儲系統(tǒng)逐步成為大數(shù)據(jù)平臺首選的架構(gòu),大數(shù)據(jù)技術(shù)成為了眾相研究的熱點。而Hadoop大數(shù)據(jù)平臺主要基于靜態(tài)數(shù)據(jù)文件的并行處理,雖然在海量數(shù)據(jù)吞吐、計算、存儲方面有著極高的效率,但是實時性較差,屬于高吞吐,高并發(fā),高時延的架構(gòu),對于小文件的處理性能一直是其不可回避的問題,故針對一些實時性較高的數(shù)據(jù)處理和使用場景下無能為力。
目前還沒有一種用于互聯(lián)網(wǎng)用戶實時數(shù)據(jù)和歷史(離線)數(shù)據(jù)整合處理的方法,特別是能夠適應(yīng)運營商大數(shù)據(jù)發(fā)展的精細化運營方法。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種基于Hadoop的用戶行為數(shù)據(jù)處理方法,能夠建立高效、精細化的用戶行為數(shù)據(jù)業(yè)務(wù)體系。
為達到上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于Hadoop的用戶行為數(shù)據(jù)處理方法,所述方法包括:
將用戶歷史數(shù)據(jù)源導(dǎo)入到分布式文件系統(tǒng)HDFS中,以通過所述HDFS提供數(shù)據(jù)訪問接口;其中,所述用戶歷史數(shù)據(jù)源包括國際移動用戶識別碼IMSI庫、國際移動設(shè)備身份碼IMEI庫以及爬蟲庫中的至少一種;
基于所述用戶歷史數(shù)據(jù)源生成用戶的歷史行為數(shù)據(jù)表;
通過數(shù)據(jù)采集工具Flume收集用戶的實時行為數(shù)據(jù)流,所述實時行為數(shù)據(jù)流包括用戶實時上網(wǎng)日志以及用戶互聯(lián)網(wǎng)行為實時解析數(shù)據(jù);
分布式訂閱系統(tǒng)Kafka實時記錄從所述Flume收集的數(shù)據(jù),并作為消息緩沖組件為實時計算框架提供數(shù)據(jù);
根據(jù)實時行為數(shù)據(jù)流的不同業(yè)務(wù)類型,運用實時計算框架Spark實時處理用戶行為產(chǎn)生的實時數(shù)據(jù),以生成用戶的實時數(shù)據(jù)表;
運用所述IMSI庫中的IMSI號關(guān)聯(lián)用戶的實時數(shù)據(jù)表和歷史行為數(shù)據(jù)表,得到用戶的行為數(shù)據(jù)寬表;
根據(jù)預(yù)設(shè)配置文件將所述用戶的行為數(shù)據(jù)寬表輸出并保存到HBase數(shù)據(jù)庫中;
將查詢系統(tǒng)Impala與HBase數(shù)據(jù)庫整合,以向外部提供用戶行為數(shù)據(jù)的查詢?nèi)肟凇?/p>
進一步地,基于所述用戶歷史數(shù)據(jù)源生成用戶的歷史行為數(shù)據(jù)表包括:
通過所述IMSI庫中的IMSI號關(guān)聯(lián)所述用戶的所有歷史行為數(shù)據(jù),并將所述用戶的所有歷史行為數(shù)據(jù)映射至數(shù)據(jù)倉庫工具Hive中,以形成所述用戶的歷史行為數(shù)據(jù)表。
進一步地,在分布式訂閱系統(tǒng)Kafka實時記錄從所述Flume收集的數(shù)據(jù)之后,所述方法還包括:
判斷待處理的數(shù)據(jù)是否已經(jīng)緩沖到Kafka配置文件中;若是,將所述待處理的數(shù)據(jù)發(fā)送至所述實時計算框架Spark;若否,將所述到處理的數(shù)據(jù)反饋至所述分布式訂閱系統(tǒng)Kafka。
進一步地,所述IMSI庫、IMEI庫以及爬蟲庫通過Sqoop從關(guān)系型數(shù)據(jù)庫導(dǎo)入到HDFS中。
進一步地,所述用戶的事實行為數(shù)據(jù)流中包括用戶在移動終端的訪問特性、搜索信息以及流量消耗對應(yīng)的實時數(shù)據(jù)。
進一步地,得到用戶的行為數(shù)據(jù)寬表包括:
基于不同的業(yè)務(wù)邏輯,運用Map/Reduce框架獲得所有輸入用戶的實時數(shù)據(jù)表和歷史行為數(shù)據(jù)表的輸出值,以形成所述行為數(shù)據(jù)寬表;其中,一個IMSI號表征一個用戶。
進一步地,所述HBase數(shù)據(jù)庫中表的結(jié)構(gòu)包括IMSI號與業(yè)務(wù)編號的組合以及用于存放用戶具體業(yè)務(wù)信息的列。
本發(fā)明的有益效果在于:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué);中移(杭州)信息技術(shù)有限公司,未經(jīng)重慶郵電大學(xué);中移(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710191813.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種實現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計算的Hadoop平臺度量方法
- 云環(huán)境中模型驅(qū)動的Hadoop部署方法
- 基于麒麟云計算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲介質(zhì)
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應(yīng)用方法





