[發(fā)明專利]一種針對異構(gòu)存儲的Shuffle方法有效
| 申請?zhí)枺?/td> | 201710532428.4 | 申請日: | 2017-07-03 |
| 公開(公告)號: | CN107329705B | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設(shè)計)人: | 潘鋒烽;熊勁 | 申請(專利權(quán))人: | 中國科學(xué)院計算技術(shù)研究所 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 針對 存儲 shuffle 方法 | ||
1.一種針對異構(gòu)存儲的Shuffle方法,其中異構(gòu)存儲設(shè)備由SSD和HDD組成,所述方法包括以下步驟:
步驟1)、將異構(gòu)存儲設(shè)備按照其介質(zhì)類型分別組成相應(yīng)的資源池;
步驟2)、根據(jù)負載類型將Shuffle數(shù)據(jù)寫入相應(yīng)的所述資源池中;其中,負載類型包括:Shuffle階段數(shù)據(jù)量大或所占時間比例大的負載類型,Shuffle階段數(shù)據(jù)量小或所占時間比例小的負載類型,以及Shuffle階段特征未知的負載類型;
其中,對于Shuffle階段數(shù)據(jù)量大或所占時間比例大的負載類型,將Shuffle數(shù)據(jù)存儲在所述異構(gòu)存儲設(shè)備的SSD中;
對于Shuffle階段數(shù)據(jù)量小或所占時間比例小的負載類型,將Shuffle數(shù)據(jù)存儲在所述異構(gòu)存儲設(shè)備的HDD中;
對于Shuffle階段特征未知的負載類型,將Shuffle數(shù)據(jù)采用輪詢方式存儲在所述異構(gòu)存儲設(shè)備中,并且采用按序分段讀取的方式,先從SSD上讀取Shuffle數(shù)據(jù)再從HDD上讀取Shuffle數(shù)據(jù),或者先從HDD上讀取Shuffle數(shù)據(jù)再從SSD上讀取Shuffle數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的針對異構(gòu)存儲的Shuffle方法,其中,所述步驟1)所述資源池是由SSD組成的資源池和由HDD組成的資源池。
3.根據(jù)權(quán)利要求2所述的針對異構(gòu)存儲的Shuffle方法,其中,對于Shuffle階段數(shù)據(jù)量大或所占時間比例大的負載類型,將數(shù)據(jù)存儲在所述SSD組成的資源池中。
4.根據(jù)權(quán)利要求2所述的針對異構(gòu)存儲的Shuffle方法,其中,對于Shuffle階段數(shù)據(jù)量小或所占時間比例小的負載類型,將數(shù)據(jù)存儲在所述HDD組成的資源池中。
5.根據(jù)權(quán)利要求3或4所述的針對異構(gòu)存儲的Shuffle方法,采用從相應(yīng)的資源池中直接讀取的方式讀取Shuffle數(shù)據(jù)。
6.一種MapReduce編程方法,包括根據(jù)權(quán)利要求1至5中任一項所述的針對異構(gòu)存儲的Shuffle方法。
7.一種計算機系統(tǒng),包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,所述處理器運行所述程序時執(zhí)行如權(quán)利要求6所述的步驟。
8.一種計算機可讀存儲介質(zhì),包括存儲在所述可讀存儲介質(zhì)上的計算機程序,其中,所述程序執(zhí)行如權(quán)利要求6所述的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院計算技術(shù)研究所,未經(jīng)中國科學(xué)院計算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710532428.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 一種MapReduce系統(tǒng)
- 一種考慮任務(wù)相關(guān)性的Hive優(yōu)化方法及系統(tǒng)
- 一種針對異構(gòu)存儲的Shuffle方法
- 一種Spark平臺Shuffle過程壓縮算法決策方法
- 基于內(nèi)核旁路技術(shù)的Hadoop map-reduce計算加速方法
- 通用流式Shuffle引擎的實現(xiàn)方法、裝置、設(shè)備及存儲介質(zhì)
- 任務(wù)調(diào)度方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)
- 基于Spark架構(gòu)的數(shù)據(jù)均衡分區(qū)方法及計算機存儲介質(zhì)
- 針對大數(shù)據(jù)處理平臺Hadoop的攻擊方法
- 一種基于容器的分布式計算方法和裝置





