[發明專利]一種基于Hadoop的用戶行為數據處理方法在審
| 申請號: | 201710191813.7 | 申請日: | 2017-03-27 |
| 公開(公告)號: | CN106951552A | 公開(公告)日: | 2017-07-14 |
| 發明(設計)人: | 陳粵龍;陳敏俊;溫亮生;張治中;趙瑞莉 | 申請(專利權)人: | 重慶郵電大學;中移(杭州)信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同恒源知識產權代理有限公司11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;85 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 用戶 行為 數據處理 方法 | ||
1.一種基于Hadoop的用戶行為數據處理方法,其特征在于,所述方法包括:
將用戶歷史數據源導入到分布式文件系統HDFS中,以通過所述HDFS提供數據訪問接口;其中,所述用戶歷史數據源包括國際移動用戶識別碼IMSI庫、國際移動設備身份碼IMEI庫以及爬蟲庫中的至少一種;
基于所述用戶歷史數據源生成用戶的歷史行為數據表;
通過數據采集工具Flume收集用戶的實時行為數據流,所述實時行為數據流包括用戶實時上網日志以及用戶互聯網行為實時解析數據;
分布式訂閱系統Kafka實時記錄從所述Flume收集的數據,并作為消息緩沖組件為實時計算框架提供數據;
根據實時行為數據流的不同業務類型,運用實時計算框架Spark實時處理用戶行為產生的實時數據,以生成用戶的實時數據表;
運用所述IMSI庫中的IMSI號關聯用戶的實時數據表和歷史行為數據表,得到用戶的行為數據寬表;
根據預設配置文件將所述用戶的行為數據寬表輸出并保存到HBase數據庫中;
將查詢系統Impala與HBase數據庫整合,以向外部提供用戶行為數據的查詢入口。
2.根據權利要求1所述的方法,其特征在于,基于所述用戶歷史數據源生成用戶的歷史行為數據表包括:
通過所述IMSI庫中的IMSI號關聯所述用戶的所有歷史行為數據,并將所述用戶的所有歷史行為數據映射至數據倉庫工具Hive中,以形成所述用戶的歷史行為數據表。
3.根據權利要求1所述的方法,其特征在于,在分布式訂閱系統Kafka實時記錄從所述Flume收集的數據之后,所述方法還包括:
判斷待處理的數據是否已經緩沖到Kafka配置文件中;若是,將所述待處理的數據發送至所述實時計算框架Spark;若否,將所述待處理的數據反饋至所述分布式訂閱系統Kafka。
4.根據權利要求1所述的方法,其特征在于,所述IMSI庫、IMEI庫以及爬蟲庫通過Sqoop從關系型數據庫導入到HDFS中。
5.根據權利要求1所述的方法,其特征在于,所述用戶的事實行為數據流中包括用戶在移動終端的訪問特性、搜索信息以及流量消耗對應的實時數據。
6.根據權利要求1所述的方法,其特征在于,得到用戶的行為數據寬表包括:
基于不同的業務邏輯,運用Map/Reduce框架獲得所有輸入用戶的實時數據表和歷史行為數據表的輸出值,以形成所述行為數據寬表;其中,一個IMSI號表征一個用戶。
7.根據權利要求1所述的方法,其特征在于,所述HBase數據庫中表的結構包括IMSI號與業務編號的組合以及用于存放用戶具體業務信息的列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學;中移(杭州)信息技術有限公司,未經重慶郵電大學;中移(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710191813.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種具有防塵引風機的粉碎系統
- 下一篇:調刀用工裝





