[發(fā)明專利]一種混合大數(shù)據(jù)處理系統(tǒng)及處理方法在審
| 申請?zhí)枺?/td> | 201410605808.2 | 申請日: | 2014-10-31 |
| 公開(公告)號: | CN104468710A | 公開(公告)日: | 2015-03-25 |
| 發(fā)明(設(shè)計)人: | 王茜;史晨昱;梁小江;李安穎;葛新 | 申請(專利權(quán))人: | 西安未來國際信息股份有限公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 羅笛 |
| 地址: | 710075 陜西省西安*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 混合 數(shù)據(jù)處理系統(tǒng) 處理 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于大數(shù)據(jù)技術(shù)領(lǐng)域,涉及一種混合大數(shù)據(jù)處理系統(tǒng),還涉及一種混合大數(shù)據(jù)處理方法。
背景技術(shù)
目前,大數(shù)據(jù)在很多企業(yè)中已經(jīng)廣泛被應(yīng)用,在處理大數(shù)據(jù)時,Hadoop通常被作為標(biāo)準(zhǔn)來使用,例如IBM、Oracle、SAP、甚至微軟等大型軟件供應(yīng)商都采了Hadoop。Hadoop雖然在批量數(shù)據(jù)處理方面功效卓越,然而它對實時性要求高的業(yè)務(wù)卻顯得力有未逮。
而Storm是一個高度容錯的、分布式的實時流式處理系統(tǒng),能夠在實時性需求高的場景中對持續(xù)不斷的數(shù)據(jù)流進行分析處理,比如在一些精準(zhǔn)廣告推薦、話題趨勢預(yù)測等。
在資源分配方面,對于Hadoop生態(tài)系統(tǒng)而言,無論是處理器還是存儲能力等方面的需求都是隨著數(shù)據(jù)量和業(yè)務(wù)復(fù)雜性的變化而動態(tài)改變的,因此,在考慮如何高效利用Hadoop系統(tǒng)資源的情況下,適時地將暫時不用的資源分配給需要實時處理的系統(tǒng)使用,再在其需要時重新獲取使用將是一件有意義的事情。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種混合大數(shù)據(jù)處理系統(tǒng),能夠降低批處理和流式處理之間的交換,并且使得系統(tǒng)資源得到合理而充分的利用。
本發(fā)明的另一目的是提供一種混合大數(shù)據(jù)處理方法,能夠降低批處理和流式處理之間的交換,并且使得系統(tǒng)資源得到合理而充分的利用。
本發(fā)明所采用的一種技術(shù)方案是,一種混合大數(shù)據(jù)處理系統(tǒng),包括與Gearman服務(wù)器端連接的多個客戶端和多個數(shù)據(jù)處理模塊,多個數(shù)據(jù)處理模塊均與存儲系統(tǒng)連接。
本發(fā)明一種技術(shù)方案的特點還在于,
數(shù)據(jù)處理模塊包括strom?topology單元,strom?topology單元與mapreduce?Job單元連接,strom?topology單元和mapreduce?Job單元均與Gearman服務(wù)器端連接,strom?topology單元和mapreduce?Job單元均與存儲系統(tǒng)連接。
本發(fā)明所采用的另一種技術(shù)方案是,一種混合大數(shù)據(jù)處理方法,采用一種混合大數(shù)據(jù)處理系統(tǒng),其結(jié)構(gòu)為:包括與Gearman服務(wù)器端連接的多個客戶端和多個數(shù)據(jù)處理模塊,多個數(shù)據(jù)處理模塊均與存儲系統(tǒng)連接;
數(shù)據(jù)處理模塊包括strom?topology單元,strom?topology單元與mapreduce?Job單元連接,strom?topology單元和mapreduce?Job單元均與Gearman服務(wù)器端連接,strom?topology單元和mapreduce?Job單元均與存儲系統(tǒng)連接;
采用上述混合大數(shù)據(jù)處理系統(tǒng)的處理方法,具體按照以下步驟實施:
步驟1,用戶根據(jù)需求編寫請求,客戶端發(fā)送請求給Gearman服務(wù)器端,請求為實時數(shù)據(jù)處理請求或離線批量數(shù)據(jù)處理請求;
步驟2,Gearman服務(wù)器端接收客戶端發(fā)送的請求,并根據(jù)請求判斷將需要處理的業(yè)務(wù)分發(fā)給strom?topology單元或mapreduce?Job單元,如果請求為實時數(shù)據(jù)處理請求,則執(zhí)行步驟3;如果請求為離線批量數(shù)據(jù)處理請求,則執(zhí)行步驟4;
步驟3,strom?topology單元對數(shù)據(jù)進行實時處理,并將處理結(jié)果經(jīng)Gearman服務(wù)器端返回給客戶端,將需要存儲的數(shù)據(jù)存入存儲系統(tǒng)中;
步驟4,mapreduce?Job單元對數(shù)據(jù)進行離線批量處理,并將處理結(jié)果經(jīng)Gearman服務(wù)器端返回給客戶端,將需要存儲的數(shù)據(jù)存入存儲系統(tǒng)中。
本發(fā)明另一種技術(shù)方案的特點還在于,
其中,步驟3具體按照以下步驟實施:
步驟3.1,strom?topology單元判斷資源是否緊張,如果資源緊張,則向Hadoop系統(tǒng)借調(diào)資源,并執(zhí)行步驟3.2;如果資源不緊張,則執(zhí)行步驟3.2;
步驟3.2,strom?topology單元對數(shù)據(jù)進行實時處理,并在空閑時釋放資源;
步驟3.3,strom?topology單元判斷經(jīng)過實時處理后的數(shù)據(jù)是否需要mapreduce?Job單元再做處理,如果需要,則將經(jīng)過實時處理后的數(shù)據(jù)發(fā)送給mapreduce?Job單元處理,并將經(jīng)過mapreduce?Job單元處理后的數(shù)據(jù)經(jīng)Gearman服務(wù)器端返回給客戶端,然后執(zhí)行步驟3.4;如果不需要,則將經(jīng)過實時處理后的數(shù)據(jù)經(jīng)Gearman服務(wù)器端返回給客戶端,然后執(zhí)行步驟3.4;
步驟3.4,strom?topology單元判斷實時處理后的數(shù)據(jù)或經(jīng)過mapreduce?Job單元處理后的數(shù)據(jù)是否需要存儲,如果需要存儲,則將最終處理后的數(shù)據(jù)發(fā)送給存儲系統(tǒng)存儲。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安未來國際信息股份有限公司,未經(jīng)西安未來國際信息股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410605808.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 在數(shù)據(jù)處理系統(tǒng)中基于所需電池壽命的計算機電源管理
- 在網(wǎng)絡(luò)數(shù)據(jù)處理系統(tǒng)中安裝軟件的方法和系統(tǒng)
- 遠程數(shù)據(jù)處理系統(tǒng)的配置
- 多個子據(jù)處理系統(tǒng)之間在線切換的方法
- 跨境多幣種數(shù)據(jù)處理系統(tǒng)和方法
- 用于批量和實時數(shù)據(jù)處理的設(shè)備、系統(tǒng)和方法
- 動態(tài)地調(diào)整品牌和平臺界面元素
- 基于銀行卡交易的數(shù)據(jù)處理方法以及數(shù)據(jù)處理系統(tǒng)
- 數(shù)據(jù)處理方法、裝置和設(shè)備
- 用于批量和實時數(shù)據(jù)處理的設(shè)備、系統(tǒng)和方法





