[發(fā)明專利]基于Hadoop平臺的電信運(yùn)營商海量數(shù)據(jù)處理方法無效
| 申請?zhí)枺?/td> | 201310336147.3 | 申請日: | 2013-08-05 |
| 公開(公告)號: | CN103425762A | 公開(公告)日: | 2013-12-04 |
| 發(fā)明(設(shè)計(jì))人: | 沈建華;王翔 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F9/44 |
| 代理公司: | 江蘇愛信律師事務(wù)所 32241 | 代理人: | 劉琦 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hadoop 平臺 電信 運(yùn)營商 海量 數(shù)據(jù)處理 方法 | ||
?
技術(shù)領(lǐng)域
本發(fā)明提出一種基于Hadoop平臺的電信運(yùn)營商海量數(shù)據(jù)處理方法,屬于計(jì)算機(jī)通信、大數(shù)據(jù)處理領(lǐng)域。
?
背景技術(shù)
移動互聯(lián)網(wǎng)的快速發(fā)展,使得用戶產(chǎn)生和應(yīng)用的數(shù)據(jù)呈現(xiàn)飛速增長的趨勢,海量數(shù)據(jù)的出現(xiàn)和數(shù)據(jù)結(jié)構(gòu)的改變,給電信行業(yè)運(yùn)營商管理和分析處理數(shù)據(jù)帶來了巨大的挑戰(zhàn)。傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫的處理方法已經(jīng)無法有效地存儲和處理日益增長和新型的業(yè)務(wù)數(shù)據(jù),Hadoop?分布式技術(shù)的發(fā)展為解決上述問題提供了技術(shù)手段。
Hadoop是Apache組織管理的一個開源項(xiàng)目,是基于Google云計(jì)算理論Big?Table、MapReduce和GFS的軟件實(shí)現(xiàn)。Hadoop可以使用戶在不了解底層細(xì)節(jié)的情況下開發(fā)MapReduce程序,并在價格低廉的商用集群上進(jìn)行運(yùn)算和存儲,具有可擴(kuò)展、高容錯、經(jīng)濟(jì)、可靠、高效等優(yōu)點(diǎn)。Hadoop的核心組件有兩個部分:分布式文件系統(tǒng)(HDFS)和分布式計(jì)算模型MapReduce。HDFS是Hadoop的旗艦級文件系統(tǒng),它以流式數(shù)據(jù)訪問模式來存儲超大文件,運(yùn)行于商用硬件集群上;MapReduce是一個編程模型,用以進(jìn)行穩(wěn)定、高效、超大數(shù)據(jù)量的分析計(jì)算。
Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供完整的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。
Sqoop是在關(guān)系型數(shù)據(jù)庫和HDFS間高效傳輸數(shù)據(jù)的工具,可以將一個關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)關(guān)系型數(shù)據(jù)庫中。
?
發(fā)明內(nèi)容
技術(shù)問題:本發(fā)明提出了一種可以解決海量數(shù)據(jù)給電信運(yùn)營商帶來的處理壓力,能夠進(jìn)行高效智能分析和數(shù)據(jù)挖掘的基于Hadoop平臺的電信運(yùn)營商海量數(shù)據(jù)處理方法。
技術(shù)方案:本發(fā)明的基于Hadoop平臺的電信運(yùn)營商海量數(shù)據(jù)處理方法,包括如下步驟:
1)通過Hadoop平臺的數(shù)據(jù)傳輸工具Sqoop,將原始數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)抽取到Hadoop集群本地服務(wù)器上;
2)在Hive數(shù)據(jù)倉庫中建表,根據(jù)需求不同將表分為臨時層、細(xì)節(jié)層、中間層和應(yīng)用層,然后把抽取到Hadoop集群本地服務(wù)器上的數(shù)據(jù)導(dǎo)入到Hive數(shù)據(jù)倉庫中對應(yīng)的源表里;所述臨時層用于存儲臨時數(shù)據(jù),用完即刪,所述細(xì)節(jié)層用于存放日表或者列數(shù)較少的表,所述中間層用于存放月表和列數(shù)較全的表,所述應(yīng)用層用于存放應(yīng)用報表;
3)針對業(yè)務(wù)需求和數(shù)據(jù)模型撰寫設(shè)計(jì)文檔,描述源表和目標(biāo)表之間的字段對應(yīng)關(guān)系,以及ETL邏輯,然后按照設(shè)計(jì)文檔開發(fā)Hive語句并封裝成Hive腳本,在所述Hive腳本中添加日志信息以便于后期維護(hù)管理;
4)執(zhí)行Hive腳本,從Hive源表中抽取數(shù)據(jù),然后按照源表和目標(biāo)表之間的字段對應(yīng)關(guān)系,以及ETL邏輯,將抽取的源表數(shù)據(jù)轉(zhuǎn)換成目標(biāo)表數(shù)據(jù),并將所述目標(biāo)表數(shù)據(jù)裝載到目標(biāo)表中,上述執(zhí)行過程中,對Hive腳本執(zhí)行情況進(jìn)行監(jiān)控,如果報錯,則查詢?nèi)罩拘畔⒉⒍ㄎ诲e誤,修改Hive腳本后重新執(zhí)行;
5)根據(jù)具體業(yè)務(wù)需求,在Hive客戶端中,對所述步驟4)中裝載后的目標(biāo)表數(shù)據(jù)進(jìn)行簡單查詢或數(shù)據(jù)挖掘分析。
本發(fā)明一個優(yōu)選方案的步驟5)中,簡單查詢按照在Hive的客戶端上編寫的Hive查詢語句進(jìn)行,數(shù)據(jù)挖掘分析按照在Hadoop中編寫MapReduce程序進(jìn)行。
上述優(yōu)選方案中,?MapReduce函數(shù)可以是按照協(xié)同過濾算法、PageRank矩陣分塊算法、關(guān)聯(lián)分析算法或聚類分析算法編寫。
有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn):??????
1)對于PB級并且多樣化結(jié)構(gòu)的數(shù)據(jù),本發(fā)明中提出了一種基于Hadoop平臺的數(shù)據(jù)處理方法,將電信運(yùn)營商海量數(shù)據(jù)的特點(diǎn)和Hadoop平臺的優(yōu)勢充分結(jié)合起來,極大的提高了數(shù)據(jù)處理的效率,大大減少查詢分析的時間。
2)在商業(yè)智能要求越來越高的情況下,本發(fā)明采用Hive作為數(shù)據(jù)倉庫存儲海量用戶數(shù)據(jù),不僅可以編寫簡單的Hive查詢語句查詢結(jié)果,還可以編寫MapReduce程序?qū)?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析,便于電信運(yùn)營商開展針對性營銷,提高數(shù)據(jù)利用率。
?
附圖說明
圖1為本發(fā)明方法的流程圖。
?
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310336147.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種混合機(jī)
- 下一篇:一種新型膠漿攪拌機(jī)
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種實(shí)現(xiàn)大數(shù)據(jù)處理的方法及裝置
- 一種用PVFS替代Hadoop存儲模塊的方法
- Hadoop數(shù)據(jù)文件的生成方法與解析方法
- 調(diào)用hadoop集群的方法和裝置
- 一種基于可信計(jì)算的Hadoop平臺度量方法
- 云環(huán)境中模型驅(qū)動的Hadoop部署方法
- 基于麒麟云計(jì)算平臺的Hadoop集群自動化部署方法
- 一種用lustre文件系統(tǒng)替換Hadoop的HDFS文件系統(tǒng)的方法
- 數(shù)據(jù)存儲、查詢的方法、裝置、系統(tǒng)、設(shè)備、存儲介質(zhì)
- 一種文件型門衛(wèi)式存儲加密功能的Hadoop系統(tǒng)及其應(yīng)用方法





