[發(fā)明專利]一種面向Spark系統(tǒng)的數(shù)據(jù)處理加速方法在審
| 申請?zhí)枺?/td> | 201910467553.0 | 申請日: | 2019-05-31 |
| 公開(公告)號: | CN110262896A | 公開(公告)日: | 2019-09-20 |
| 發(fā)明(設(shè)計(jì))人: | 趙來平;李一鳴;李克秋;蘇麗葉 | 申請(專利權(quán))人: | 天津大學(xué) |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 韓帥 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)處理 任務(wù)調(diào)度模塊 服務(wù)器 可用計(jì)算資源 數(shù)據(jù)分發(fā)模塊 性能預(yù)測模塊 程序接口 任務(wù)調(diào)度 實(shí)時(shí)獲取 硬件資源 優(yōu)化數(shù)據(jù) 預(yù)測模塊 資源監(jiān)視 綜合考慮 異構(gòu)性 最小化 分配 建模 分發(fā) 預(yù)測 表現(xiàn) 開發(fā) | ||
本發(fā)明公開一種面向Spark系統(tǒng)的數(shù)據(jù)處理加速方法,由性能預(yù)測模塊、任務(wù)調(diào)度模塊和數(shù)據(jù)分發(fā)模塊三個(gè)部分組成,性能預(yù)測模塊根據(jù)給定的參數(shù)對一個(gè)任務(wù)的性能表現(xiàn)進(jìn)行建模并預(yù)測其完成時(shí)間;任務(wù)調(diào)度模塊分配計(jì)算任務(wù)到服務(wù)器上執(zhí)行,通過資源監(jiān)視程序?qū)崟r(shí)獲取當(dāng)前可用計(jì)算資源,再通過開發(fā)的程序接口分配任務(wù)在指定服務(wù)器上執(zhí)行;本發(fā)明旨在加速Spark系統(tǒng)的數(shù)據(jù)處理,通過綜合考慮硬件資源異構(gòu)性、計(jì)算干擾、數(shù)據(jù)本地性、數(shù)據(jù)傾斜和數(shù)據(jù)溢寫等因素,優(yōu)化數(shù)據(jù)分發(fā)和任務(wù)調(diào)度,從而最小化整體完成時(shí)間。
技術(shù)領(lǐng)域
本發(fā)明涉及分布式計(jì)算的任務(wù)調(diào)度與數(shù)據(jù)分發(fā)的大數(shù)據(jù)技術(shù)領(lǐng)域,特別是一種面向Spark 系統(tǒng)的數(shù)據(jù)處理加速方法。
背景技術(shù)
隨著MapReduce計(jì)算模型的提出,對于大數(shù)據(jù)的處理和分析變得極為簡單和高效,但是掉隊(duì)者問題一直以來都是分布式計(jì)算中的棘手問題。掉隊(duì)者是指那些在并行運(yùn)行的任務(wù)中花費(fèi)異常多的時(shí)間完成進(jìn)而顯著降低整體性能的任務(wù)。導(dǎo)致掉隊(duì)者問題產(chǎn)生的原因主要來源于硬件計(jì)算資源層和應(yīng)用層兩個(gè)方面,比如硬件異構(gòu)性、計(jì)算干擾、數(shù)據(jù)本地性、數(shù)據(jù)溢寫和數(shù)據(jù)傾斜等。掉隊(duì)者問題的存在不僅拖慢了整體的完成時(shí)間,令任務(wù)變得效率低下,造成了硬件資源的浪費(fèi),影響其他任務(wù)的正常進(jìn)行。同時(shí),掉隊(duì)者問題的長時(shí)間運(yùn)行也增加了任務(wù)出錯(cuò)的風(fēng)險(xiǎn),甚至導(dǎo)致整個(gè)工作失敗。
目前,已經(jīng)有很多方法被提出用來緩解掉隊(duì)者問題來加速數(shù)據(jù)處理,比如LATE,Dolly,延遲調(diào)度,DREAMS,LIBRA等,但是這些方法都存在著或多或少的缺陷,沒有綜合考慮各種影響因素來進(jìn)行加速。LATE優(yōu)化了默認(rèn)的推測執(zhí)行機(jī)制以使其可以適用于異構(gòu)計(jì)算環(huán)境, Dolly利用對小任務(wù)的完全克隆來避免等待和猜測執(zhí)行進(jìn)行,但是LATE和Dolly這些通過備份任務(wù)來緩解掉隊(duì)者問題的方法,都需要等待不短時(shí)間來收集任務(wù)性能表現(xiàn)的統(tǒng)計(jì)信息來制定策略,而那些備份后依舊運(yùn)行很慢的的任務(wù)也有可能造成計(jì)算資源的浪費(fèi)。延遲調(diào)度通過讓那些不能滿足數(shù)據(jù)本地性的任務(wù)暫時(shí)等待來提高整體的數(shù)據(jù)本地性表現(xiàn),DREAMS基于各個(gè)任務(wù)的計(jì)算規(guī)模大小動態(tài)為它們分配不同量的計(jì)算資源,這兩種方法雖然考慮到了應(yīng)用層數(shù)據(jù)的的影響,但是還是無法解決數(shù)據(jù)傾斜帶來的掉隊(duì)者問題。LIBRA通過支持鍵值對數(shù)據(jù)的拆分對數(shù)據(jù)傾斜進(jìn)行專門的優(yōu)化,但沒有考慮計(jì)算干擾以及任務(wù)調(diào)度帶來的影響。
現(xiàn)有方法大多不能適用于當(dāng)前最流行的分布式計(jì)算框架Spark,為了彌補(bǔ)它們的不足,本發(fā)明提出了一種面向Spark系統(tǒng)的數(shù)據(jù)處理加速方法。相比現(xiàn)有的工作,本發(fā)明綜合考慮了硬件計(jì)算資源層和應(yīng)用層兩個(gè)方面,基于硬件資源異構(gòu)性、計(jì)算干擾、數(shù)據(jù)本地性和數(shù)據(jù)傾斜等影響任務(wù)性能的因素對于性能的影響程度建立了任務(wù)性能預(yù)測模型,提出了一種可在秒級時(shí)間內(nèi)完成的模型求解算法,進(jìn)而制定數(shù)據(jù)分發(fā)和任務(wù)調(diào)度策略,最小化整體任務(wù)運(yùn)行時(shí)間,對任務(wù)進(jìn)行加速。
發(fā)明內(nèi)容
本發(fā)明旨在加速Spark系統(tǒng)的數(shù)據(jù)處理,通過綜合考慮硬件資源異構(gòu)性、計(jì)算干擾、數(shù)據(jù)本地性、數(shù)據(jù)傾斜和數(shù)據(jù)溢寫等因素,優(yōu)化數(shù)據(jù)分發(fā)和任務(wù)調(diào)度,從而最小化整體完成時(shí)間。
為了解決現(xiàn)有技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
一種面向Spark系統(tǒng)的數(shù)據(jù)處理加速方法,由性能預(yù)測模塊、任務(wù)調(diào)度模塊和數(shù)據(jù)分發(fā)模塊三個(gè)部分組成。
一種面向Spark系統(tǒng)的數(shù)據(jù)處理加速方法,由性能預(yù)測模塊、任務(wù)調(diào)度模塊和數(shù)據(jù)分發(fā)模塊三個(gè)部分組成,
性能預(yù)測模塊根據(jù)給定的參數(shù)對一個(gè)任務(wù)的性能表現(xiàn)進(jìn)行建模并預(yù)測其完成時(shí)間;
任務(wù)調(diào)度模塊分配計(jì)算任務(wù)到服務(wù)器上執(zhí)行,即將硬件異構(gòu)性和數(shù)據(jù)本地性因素來指定任務(wù)的調(diào)度策略,通過資源監(jiān)視程序?qū)崟r(shí)獲取當(dāng)前可用計(jì)算資源,再通過開發(fā)的程序接口分配任務(wù)在指定服務(wù)器上執(zhí)行;
數(shù)據(jù)分發(fā)模塊是將任務(wù)生成的(key,value)鍵值對格式的中間數(shù)據(jù)按照一定規(guī)則分發(fā)到不同Reduce任務(wù)處理的過程;其中:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910467553.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 網(wǎng)絡(luò)資源調(diào)度仿真系統(tǒng)
- 傳輸任務(wù)調(diào)度方法和系統(tǒng)
- 一種可動態(tài)調(diào)整的任務(wù)調(diào)度系統(tǒng)和調(diào)度方法
- 一種基于AMBA總線的PLC程序調(diào)度器IP核
- 一種老化感知的任務(wù)調(diào)度系統(tǒng)
- 分布式任務(wù)調(diào)度系統(tǒng)及方法
- 一種基于Ansible的自動化運(yùn)維系統(tǒng)和方法
- 任務(wù)調(diào)度方法和裝置、存儲介質(zhì)、電子裝置
- 分布式大規(guī)模實(shí)時(shí)數(shù)據(jù)調(diào)度引擎系統(tǒng)及其數(shù)據(jù)調(diào)度方法
- 一種統(tǒng)一任務(wù)調(diào)度系統(tǒng)
- 優(yōu)化圖像質(zhì)量隨機(jī)算法系統(tǒng)的可伸縮可擴(kuò)展的系統(tǒng)和方法
- 跨IDC大數(shù)據(jù)處理架構(gòu)下執(zhí)行策略生成方法、裝置
- 將私有計(jì)算資源機(jī)會性地連接到外部服務(wù)
- 一種虛擬機(jī)的部署方法、裝置及智能設(shè)備
- 一種多核處理器資源分配計(jì)算方法、存儲介質(zhì)及終端設(shè)備
- 在線程序運(yùn)行方法、裝置、電子設(shè)備和計(jì)算機(jī)存儲介質(zhì)
- 三維聲波NPML算法的異構(gòu)并行計(jì)算實(shí)現(xiàn)方法及裝置
- 一種開源信息采集虛擬主機(jī)資源調(diào)度方法和系統(tǒng)
- 實(shí)現(xiàn)任務(wù)調(diào)度的方法、裝置及系統(tǒng)
- 資源分配方法、裝置、電子設(shè)備和存儲介質(zhì)





