[發(fā)明專利]基于鍵值分布的跨數(shù)據(jù)中心大數(shù)據(jù)處理有效
| 申請?zhí)枺?/td> | 201610100798.6 | 申請日: | 2016-02-24 |
| 公開(公告)號: | CN105589752B | 公開(公告)日: | 2019-10-15 |
| 發(fā)明(設(shè)計)人: | 張江濤;王軒;黃荷姣 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué)深圳研究生院 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44248 | 代理人: | 孫偉 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 鍵值 分布 數(shù)據(jù)中心 數(shù)據(jù)處理 | ||
本發(fā)明提出了一種基于鍵值分布的跨數(shù)據(jù)中心(DC)大數(shù)據(jù)處理系統(tǒng)和方法,首先基于G?Hadoop和G?MR提出了一種新的架構(gòu),新增了一個用于收集DC相關(guān)信息以及key的分布信息的ResourceManager模塊,該系統(tǒng)能對每個DC的輸出進行抽樣,從而得到近似的key分布并估算每個Reducer分配到的數(shù)據(jù)量,存儲到ResourceManager模塊;然后利用ResourceManager模塊中存儲的信息,本發(fā)明提出的二層分組遺傳算法TLGGA,為每個reducer尋找目標(biāo)DC。其中,TLGGA中初始種群的生成分別針對三個目標(biāo),即電價,物力資源和傳輸代價;TLGGA采用了局部優(yōu)化的技巧,加快了算法的收斂。
技術(shù)領(lǐng)域
本發(fā)明涉及云計算和大數(shù)據(jù)技術(shù)領(lǐng)域,尤其涉及一種基于鍵值分布的跨數(shù)據(jù)中心大數(shù)據(jù)處理系統(tǒng)和方法。
背景技術(shù)
分布式云計算由多個跨地域分布的數(shù)據(jù)中心組成。數(shù)據(jù)中心通常由專用高速鏈路或者昂貴的長途鏈路連接。分布式云計算因為提供了充足的計算和存儲能力,而越來越被廣泛地用來部署多種業(yè)務(wù),特別是像社會服務(wù),天文學(xué)等這類數(shù)據(jù)密集型的應(yīng)用。
因為這些數(shù)據(jù)數(shù)量巨大,而且來自于不同地域,將這些數(shù)據(jù)匯集到一起并存儲在某一個數(shù)據(jù)中心不總是現(xiàn)實的。更不用說在某些國家,比如歐盟,數(shù)據(jù)安全法要求數(shù)據(jù)必須在本國存儲。一般的,數(shù)據(jù)可以被存儲在靠近數(shù)據(jù)產(chǎn)生的地方,以便于經(jīng)常性的本地數(shù)據(jù)訪問。比如,美國人口統(tǒng)計數(shù)據(jù)是存儲在各州的。巨大的遙感數(shù)據(jù)是存儲在跨地域的數(shù)據(jù)中心的。雖然這些數(shù)據(jù)是分區(qū)域管理的,它們也可能為了一個共同的目標(biāo)而需要被協(xié)同分析。如果處理這些分布式的數(shù)據(jù)已經(jīng)吸引了學(xué)者和業(yè)界(比如MapR,其中一個主要的Hadoop供應(yīng)商,宣布其最近的版本將支持跨數(shù)據(jù)中心的數(shù)據(jù)表備份。這意味著將來Hadoop框架并不總是要局限在一個數(shù)據(jù)中心內(nèi)部)的廣泛關(guān)注。
Hadoop是進行大數(shù)據(jù)分析的公認平臺,是MapReduce的開源實現(xiàn),但目前Hadoop的版本并不支持跨數(shù)據(jù)中心的大數(shù)據(jù)分析和處理。研究跨數(shù)據(jù)中心的大數(shù)據(jù)處理技術(shù)已經(jīng)越來越迫切。為了了解跨數(shù)據(jù)中心的大數(shù)據(jù)分析,必須要先了解MapReduce的處理機制。
一般的,MapReduce依賴于Hadoop分布式文件系統(tǒng)(HDFS)。如附圖1左半部份所示,HDFS中,分布在扁平化網(wǎng)絡(luò)上的數(shù)據(jù)被劃分成等量的數(shù)據(jù)塊(缺省值為64M)。每一個數(shù)據(jù)分區(qū)(split)通常包含一個數(shù)據(jù)塊,也可包含多個數(shù)據(jù)塊。一個數(shù)據(jù)分區(qū)按照一個{key-value}對的方式(<key1,val1>)由一個mapper處理。MapReduce包含兩個階段:map階段和reduce階段。mapper的數(shù)目是由MapReduce的job的輸入,也即數(shù)據(jù)分區(qū)個數(shù)來決定的,因此通常和數(shù)據(jù)塊的個數(shù)相同。reducer的數(shù)目需要配置。一般最優(yōu)配置建議是mapper數(shù)目的2/3。Mapper和reducer均在獨立的VM中運行。Mapper遵從數(shù)據(jù)本地化原則,即,優(yōu)選和輸入的數(shù)據(jù)分區(qū)在一起,以減少數(shù)據(jù)拷貝并加速job完成。如果做不到這一點(比如數(shù)據(jù)分區(qū)所在的PM的計算資源不夠),同機框的計算節(jié)點將會優(yōu)先被選擇,如果還不成功,則嘗試其它機框的節(jié)點。作為中間數(shù)據(jù)的map輸出,list(<key2,val2>),將會被存放在本地磁盤上。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué)深圳研究生院,未經(jīng)哈爾濱工業(yè)大學(xué)深圳研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610100798.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)中心和數(shù)據(jù)中心設(shè)計
- 一種組網(wǎng)數(shù)據(jù)中心系統(tǒng)及方法
- 一種數(shù)據(jù)中心系統(tǒng)及其配置方法
- 一種數(shù)據(jù)中心能源利用效率的測算方法和裝置
- 跨數(shù)據(jù)中心協(xié)同計算方法及其系統(tǒng)
- 數(shù)據(jù)中心底座單體、數(shù)據(jù)中心底座及數(shù)據(jù)中心
- 一種醫(yī)療云數(shù)據(jù)系統(tǒng)
- 政務(wù)云基礎(chǔ)設(shè)施即服務(wù)實現(xiàn)系統(tǒng)
- 服務(wù)調(diào)用方法、裝置、設(shè)備及介質(zhì)
- 多數(shù)據(jù)中心訪問方法及系統(tǒng)





