[發(fā)明專利]海量數(shù)據(jù)處理方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 201210215717.9 | 申請日: | 2012-06-27 |
| 公開(公告)號: | CN103514205A | 公開(公告)日: | 2014-01-15 |
| 發(fā)明(設(shè)計)人: | 聞劍峰;賀仁龍;石屹嶸;龔德志;段勇 | 申請(專利權(quán))人: | 中國電信股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中國國際貿(mào)易促進委員會專利商標(biāo)事務(wù)所 11038 | 代理人: | 孫寶海 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 海量 數(shù)據(jù)處理 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別涉及一種海量數(shù)據(jù)處理方法和系統(tǒng)。
背景技術(shù)
隨著電信業(yè)務(wù)的不斷發(fā)展,電信業(yè)務(wù)從語音業(yè)務(wù)的CDR(Call?Detail?Record,呼叫詳細記錄)發(fā)展為數(shù)據(jù)業(yè)務(wù)的UDR(User?Data?Record,用戶數(shù)據(jù)記錄),記錄規(guī)模從千萬條增長100倍發(fā)展到數(shù)十億條,數(shù)據(jù)處理規(guī)模正由TB(TeraByte,太字節(jié))級別向PB(PetaByte)級別發(fā)展。
對于海量數(shù)據(jù),如用戶上網(wǎng)行為的UDR海量日志,傳統(tǒng)的ETL(Extract?Transform?Load,抽取轉(zhuǎn)換裝載)數(shù)據(jù)處理方法采用串行處理方式,也就是將海量數(shù)據(jù)文件逐個的采集到本地服務(wù)器,然后逐個完成數(shù)據(jù)文件的字段提取、格式轉(zhuǎn)換等數(shù)據(jù)清洗的工作,最后通過傳統(tǒng)數(shù)據(jù)倉庫提供的單個數(shù)據(jù)訪問點,將清洗后的數(shù)據(jù)文件串行的導(dǎo)入數(shù)據(jù)倉庫,完成海量數(shù)據(jù)處理。
上述傳統(tǒng)的海量數(shù)據(jù)處理方法采用串行處理方式,存在處理時間較長、處理效率較低、處理速度較慢的問題。
發(fā)明內(nèi)容
本發(fā)明實施例所要解決的技術(shù)問題是:提供一種海量數(shù)據(jù)處理方法和系統(tǒng),以解決傳統(tǒng)海量數(shù)據(jù)處理方法存在的處理時間較長、處理效率較低、處理速度較慢的問題。
根據(jù)本發(fā)明實施例的一個方面提供的一種海量數(shù)據(jù)處理方法,包括:并行采集多個數(shù)據(jù)文件;將每個所述數(shù)據(jù)文件劃分成多個獨立的數(shù)據(jù)塊,分別存儲所述數(shù)據(jù)塊;對每個所述數(shù)據(jù)塊進行清洗;將清洗后的每個所述數(shù)據(jù)塊保存到數(shù)據(jù)倉庫。
可選的,所述并行采集多個數(shù)據(jù)文件包括:同時啟動多個采集子任務(wù),多個所述采集子任務(wù)并行采集多個所述數(shù)據(jù)文件。
可選的,所述分別存儲所述數(shù)據(jù)塊包括:將多個所述數(shù)據(jù)塊分散存儲到云平臺的分布式文件系統(tǒng)上。
可選的,所述對每個所述數(shù)據(jù)塊進行清洗包括:同時啟動多個數(shù)據(jù)處理子任務(wù),多個所述數(shù)據(jù)處理子任務(wù)并行對多個所述數(shù)據(jù)塊進行數(shù)據(jù)讀取、字段提取和格式轉(zhuǎn)換。
可選的,所述將清洗后的每個所述數(shù)據(jù)塊保存到數(shù)據(jù)倉庫包括:利用所述數(shù)據(jù)倉庫提供的多個數(shù)據(jù)訪問點,同時將清洗后的每個所述數(shù)據(jù)塊保存到所述數(shù)據(jù)倉庫。
根據(jù)本發(fā)明實施例的另一個方面提供的一種海量數(shù)據(jù)處理系統(tǒng),包括:并行采集裝置,用于并行采集多個數(shù)據(jù)文件;分散存儲裝置,用于將每個所述數(shù)據(jù)文件劃分成多個獨立的數(shù)據(jù)塊,分別存儲所述數(shù)據(jù)塊;清洗裝置,用于對每個所述數(shù)據(jù)塊進行清洗;入庫裝置,用于將清洗后的每個所述數(shù)據(jù)塊保存到數(shù)據(jù)倉庫。
可選的,所述并行采集裝置,用于同時啟動多個采集子任務(wù),多個所述采集子任務(wù)并行采集多個所述數(shù)據(jù)文件。
可選的,所述分散存儲裝置,用于將每個所述數(shù)據(jù)文件劃分成多個獨立的數(shù)據(jù)塊,并將多個所述數(shù)據(jù)塊分散存儲到云平臺的分布式文件系統(tǒng)上。
可選的,所述清洗裝置,用于同時啟動多個數(shù)據(jù)處理子任務(wù),多個所述數(shù)據(jù)處理子任務(wù)并行對多個所述數(shù)據(jù)塊進行數(shù)據(jù)讀取、字段提取和格式轉(zhuǎn)換。
可選的,所述入庫裝置,用于利用所述數(shù)據(jù)倉庫提供的多個數(shù)據(jù)訪問點,同時將清洗后的每個所述數(shù)據(jù)塊保存到所述數(shù)據(jù)倉庫。
基于本發(fā)明提供的海量數(shù)據(jù)處理方法和系統(tǒng),通過并行采集和分散存儲的數(shù)據(jù)處理方式,有效解決了數(shù)據(jù)輸入的瓶頸限制,提高數(shù)據(jù)輸入的效率,并且數(shù)據(jù)塊分散存儲為后續(xù)的并行處理提供了前提條件;通過多個數(shù)據(jù)塊并行清洗的方式,解決了數(shù)據(jù)清洗過程中的串行限制,提升了數(shù)據(jù)清洗的效率;通過多個數(shù)據(jù)訪問點,可以將海量數(shù)據(jù)并行導(dǎo)入數(shù)據(jù)倉庫,節(jié)省了數(shù)據(jù)加載的時間。
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明海量數(shù)據(jù)處理方法一個實施例的流程圖;
圖2為本發(fā)明一個實施例并行采集和分散存儲的流程圖;
圖3為本發(fā)明一個實施例并行清洗和并行入庫的流程圖;
圖4為本發(fā)明海量數(shù)據(jù)處理方法一個實施例的流程圖;
圖5為本發(fā)明海量數(shù)據(jù)處理方法一個實施例的時序圖;
圖6為本發(fā)明海量數(shù)據(jù)處理系統(tǒng)一個實施例的結(jié)構(gòu)示意圖;
圖7為本發(fā)明海量數(shù)據(jù)處理系統(tǒng)另一個實施例的架構(gòu)示意圖。
具體實施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電信股份有限公司,未經(jīng)中國電信股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210215717.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫海量數(shù)據(jù)比對的方法
- 基于云計算的海量數(shù)據(jù)訪問處理系統(tǒng)
- 一種實現(xiàn)海量數(shù)據(jù)離線分析的方法
- 一種海量矢量切片數(shù)據(jù)云存儲方法及系統(tǒng)
- 一種多源海量數(shù)據(jù)處理系統(tǒng)及方法
- 快速實現(xiàn)海量數(shù)據(jù)準(zhǔn)實時全量統(tǒng)計的方法、裝置及系統(tǒng)
- 一種海量數(shù)據(jù)分析系統(tǒng)及方法
- 在線繪制地圖海量線的方法
- 一種海量點數(shù)據(jù)聚合渲染方法、裝置、設(shè)備及存儲介質(zhì)
- 一種海量不確定XML數(shù)據(jù)存儲方法
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





