[發(fā)明專利]一種增量式數(shù)據(jù)并行處理裝置與方法在審
| 申請?zhí)枺?/td> | 201710957385.4 | 申請日: | 2017-10-16 |
| 公開(公告)號: | CN107807845A | 公開(公告)日: | 2018-03-16 |
| 發(fā)明(設(shè)計(jì))人: | 崔鵬飛;田春華;蔣綿;劉家揚(yáng);景兆祥 | 申請(專利權(quán))人: | 昆侖智匯數(shù)據(jù)科技(北京)有限公司 |
| 主分類號: | G06F9/46 | 分類號: | G06F9/46 |
| 代理公司: | 北京力量專利代理事務(wù)所(特殊普通合伙)11504 | 代理人: | 王鴻遠(yuǎn) |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 增量 數(shù)據(jù) 并行 處理 裝置 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及增量式數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種增量式數(shù)據(jù)并行處理裝置與方法。
背景技術(shù)
增量式數(shù)據(jù)為大規(guī)模數(shù)據(jù)集,一般采用并行運(yùn)算對增量式數(shù)據(jù)進(jìn)行處理。
MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。概念"Map(映射)"和"Reduce(歸約)",是它們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性。它極大地方便了編程人員在不會(huì)分布式并行編程的情況下,將自己的程序運(yùn)行在分布式系統(tǒng)上。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的Reduce(歸約)函數(shù),用來保證所有映射的鍵值對中的每一個(gè)共享相同的鍵組。
MapReduce提供了以下的主要功能:
1)數(shù)據(jù)劃分和計(jì)算任務(wù)調(diào)度:
系統(tǒng)自動(dòng)將一個(gè)作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個(gè)數(shù)據(jù)塊,每個(gè)數(shù)據(jù)塊對應(yīng)于一個(gè)計(jì)算任務(wù)(Task),并自動(dòng)調(diào)度計(jì)算節(jié)點(diǎn)來處理相應(yīng)的數(shù)據(jù)塊。作業(yè)和任務(wù)調(diào)度功能主要負(fù)責(zé)分配和調(diào)度計(jì)算節(jié)點(diǎn)(Map節(jié)點(diǎn)或Reduce節(jié)點(diǎn)),同時(shí)負(fù)責(zé)監(jiān)控這些節(jié)點(diǎn)的執(zhí)行狀態(tài),并負(fù)責(zé)Map節(jié)點(diǎn)執(zhí)行的同步控制。
2)數(shù)據(jù)/代碼互定位:
為了減少數(shù)據(jù)通信,一個(gè)基本原則是本地化數(shù)據(jù)處理,即一個(gè)計(jì)算節(jié)點(diǎn)盡可能處理其本地磁盤上所分布存儲(chǔ)的數(shù)據(jù),這實(shí)現(xiàn)了代碼向數(shù)據(jù)的遷移;當(dāng)無法進(jìn)行這種本地化數(shù)據(jù)處理時(shí),再尋找其他可用節(jié)點(diǎn)并將數(shù)據(jù)從網(wǎng)絡(luò)上傳送給該節(jié)點(diǎn)(數(shù)據(jù)向代碼遷移),但將盡可能從數(shù)據(jù)所在的本地機(jī)架上尋找可用節(jié)點(diǎn)以減少通信延遲。
3)系統(tǒng)優(yōu)化:
為了減少數(shù)據(jù)通信開銷,中間結(jié)果數(shù)據(jù)進(jìn)入Reduce節(jié)點(diǎn)前會(huì)進(jìn)行一定的合并處理;一個(gè)Reduce節(jié)點(diǎn)所處理的數(shù)據(jù)可能會(huì)來自多個(gè)Map節(jié)點(diǎn),為了避免Reduce計(jì)算階段發(fā)生數(shù)據(jù)相關(guān)性,Map節(jié)點(diǎn)輸出的中間結(jié)果需使用一定的策略進(jìn)行適當(dāng)?shù)膭澐痔幚恚WC相關(guān)性數(shù)據(jù)發(fā)送到同一個(gè)Reduce節(jié)點(diǎn);此外,系統(tǒng)還進(jìn)行一些計(jì)算性能優(yōu)化處理,如對最慢的計(jì)算任務(wù)采用多備份執(zhí)行、選最快完成者作為結(jié)果。
4)出錯(cuò)檢測和恢復(fù):
以低端商用服務(wù)器構(gòu)成的大規(guī)模MapReduce計(jì)算集群中,節(jié)點(diǎn)硬件(主機(jī)、磁盤、內(nèi)存等)出錯(cuò)和軟件出錯(cuò)是常態(tài),因此,MapReduce需要能檢測并隔離出錯(cuò)節(jié)點(diǎn),并調(diào)度分配新的節(jié)點(diǎn)接管出錯(cuò)節(jié)點(diǎn)的計(jì)算任務(wù)。同時(shí),系統(tǒng)還將維護(hù)數(shù)據(jù)存儲(chǔ)的可靠性,用多備份冗余存儲(chǔ)機(jī)制提高數(shù)據(jù)存儲(chǔ)的可靠性,并能及時(shí)檢測和恢復(fù)出錯(cuò)的數(shù)據(jù)。
并行計(jì)算(Parallel Computing)是指同時(shí)使用多種計(jì)算資源解決計(jì)算問題的過程,是提高計(jì)算機(jī)系統(tǒng)計(jì)算速度和處理能力的一種有效手段。它的基本思想是用多個(gè)處理器來協(xié)同求解同一問題,即將被求解的問題分解成若干個(gè)部分,各部分均由一個(gè)獨(dú)立的處理機(jī)來并行計(jì)算。并行計(jì)算系統(tǒng)既可以是專門設(shè)計(jì)的、含有多個(gè)處理器的超級計(jì)算機(jī),也可以是以某種方式互連的若干臺的獨(dú)立計(jì)算機(jī)構(gòu)成的集群。通過并行計(jì)算集群完成數(shù)據(jù)的處理,再將處理的結(jié)果返回給用戶。
并行計(jì)算可分為時(shí)間上的并行和空間上的并行。
空間上的并行:是指多個(gè)處理機(jī)并發(fā)的執(zhí)行計(jì)算,即通過網(wǎng)絡(luò)將兩個(gè)以上的處理機(jī)連接起來,達(dá)到同時(shí)計(jì)算同一個(gè)任務(wù)的不同部分,或者單個(gè)處理機(jī)無法解決的大型問題。
在MapReduce任務(wù)并行計(jì)算中,對不同數(shù)據(jù)分片的map作業(yè)執(zhí)行情況進(jìn)行監(jiān)控記錄是有意義的。在現(xiàn)有的MapReduce任務(wù)并行計(jì)算中,根據(jù)分片策略對數(shù)據(jù)進(jìn)行分片(split)并分配對應(yīng)的map作業(yè),如果某個(gè)分片的map作業(yè)失敗,下次重啟任務(wù)后會(huì)重新執(zhí)行所有map作業(yè)。
因此,需要提供一種能夠在下次重啟任務(wù)后根據(jù)上次執(zhí)行日志跳過成功的map作業(yè)而只執(zhí)行失敗的map作業(yè)的增量式數(shù)據(jù)并行處理裝置與方法。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆侖智匯數(shù)據(jù)科技(北京)有限公司,未經(jīng)昆侖智匯數(shù)據(jù)科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710957385.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 簡單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線與并行總線的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)





