[發(fā)明專利]分布式文件系統(tǒng)中的數(shù)據(jù)的并行訪問有效
| 申請?zhí)枺?/td> | 201480064544.2 | 申請日: | 2014-11-21 |
| 公開(公告)號: | CN105765578B | 公開(公告)日: | 2020-04-17 |
| 發(fā)明(設(shè)計)人: | A·M·沃爾蕾斯;B·P·杜羅斯;M·A·伊斯曼;T·韋克林 | 申請(專利權(quán))人: | 起元科技有限公司 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/13 |
| 代理公司: | 隆天知識產(chǎn)權(quán)代理有限公司 72003 | 代理人: | 李靜;張浴月 |
| 地址: | 美國馬*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分布式 文件系統(tǒng) 中的 數(shù)據(jù) 并行 訪問 | ||
從分布式文件系統(tǒng)(110)并行訪問數(shù)據(jù)的方法通過創(chuàng)建多個并行數(shù)據(jù)流使得期望單元的所有數(shù)據(jù)分區(qū)到多個流上來提供對文件系統(tǒng)中的一個或更多命名單元(例如,文件)的并行訪問。在一些例子中,多個流形成計算系統(tǒng)(130)(諸如基于圖形的計算系統(tǒng)、基于數(shù)據(jù)流的系統(tǒng)和/或(例如,關(guān)系)數(shù)據(jù)庫系統(tǒng))的并行實現(xiàn)的多個輸入。
相關(guān)申請的交叉引用
本申請要求享有2013年11月26日提交的序列號為14/090,434的美國申請的優(yōu)先權(quán)。
技術(shù)領(lǐng)域
本發(fā)明涉及分布式文件系統(tǒng)中的數(shù)據(jù)的并行訪問。
背景技術(shù)
分布式文件系統(tǒng)的一個例子是Hadoop分布式文件系統(tǒng)(HDFS)。HDFS是用Java編寫的可擴展、可移植的分布式文件系統(tǒng)。HDFS具有為文件系統(tǒng)中的多個文件保存數(shù)據(jù)且能夠通過數(shù)據(jù)網(wǎng)絡(luò)提供文件塊的一組節(jié)點(“數(shù)據(jù)節(jié)點”)。每一個文件通常分布在多個節(jié)點上。通過一組節(jié)點(“名稱節(jié)點”)來維護文件系統(tǒng)的目錄。該目錄能夠用于識別文件系統(tǒng)中的每個命名文件的多個分布式塊的位置。
參照圖1A-圖1B,使用MapReduce編程模型是處理分布式文件系統(tǒng)(例如,HDFS)中的數(shù)據(jù)的一種方式。通常,MapReduce程序包括映射(Map)進程和歸約(Reduce)進程,其中映射進程進行過濾和排序(例如,按名字把學(xué)生排成隊列,每個名字排一個隊列),歸約進程進行總結(jié)操作(例如,計數(shù)每個隊列中學(xué)生的人數(shù),產(chǎn)生名字頻率)。系統(tǒng)的用戶指定映射進程和歸約進程,但不一定要確定每個進程(即,“過程”)的實例(或調(diào)用)的數(shù)目或者它們執(zhí)行所在的節(jié)點。相反,“MapReduce系統(tǒng)”(也稱為“架構(gòu)”、“框架”)通過編組一組分布式節(jié)點來進行編排,并行運行各種任務(wù)(例如,映射進程和歸約進程及相關(guān)聯(lián)的通信),管理系統(tǒng)的各個部分之間的所有通信和數(shù)據(jù)傳送,提供冗余和故障并且整體管理整個過程來進行協(xié)調(diào)管理。MapReduce系統(tǒng)能夠安排映射進程和歸約進程的實例的執(zhí)行,并知道數(shù)據(jù)位置。在圖1A中,HDFS是分布式文件系統(tǒng)110的一個例子,而Hadoop框架是分布式處理系統(tǒng)的一個例子,這樣一組映射進程24在多個處理器122上并行執(zhí)行以處理分布式文件的多個部分14并在文件系統(tǒng)110中存儲多個輸出文件16。在圖1B中,一組歸約進程26處理映射進程的多個輸出以產(chǎn)生多個輸出文件18,從而完成了MapReduce執(zhí)行。
雖然使用與MapReduce系統(tǒng)集成的分布式文件系統(tǒng)能夠獲得計算優(yōu)勢,然而訪問與其它編程范例一起進行處理的數(shù)據(jù)可能是低效的。例如,數(shù)據(jù)的提取可能導(dǎo)致瓶頸,例如,文件的全部數(shù)據(jù)通過單數(shù)據(jù)流傳遞(即使數(shù)據(jù)的處理本身是并行的)。例如,HDFS提供文件系統(tǒng)命令(hadoop fs-cat文件),該命令將文件的內(nèi)容傳遞到標(biāo)準(zhǔn)輸出端口并可能地流式傳輸?shù)娇刹⑿刑幚韮?nèi)容的過程或服務(wù)器。
避免此類瓶頸的一種方法是將大文件明確分成多個單獨的命名部分(即,目錄中的各個條目),然后促使每個部分在單獨的流中被提取。然而,這類方法可能存在缺點,例如,需要有關(guān)例如這些部分的數(shù)量和提取的這些部分所在的節(jié)點的潛在次優(yōu)選擇的先前決策,因為這些命名部分本身是分布式的。
將數(shù)據(jù)從分布式文件系統(tǒng)提供到一個應(yīng)用程序(例如,數(shù)據(jù)庫引擎)的另一種方法是在文件系統(tǒng)內(nèi)實現(xiàn)該應(yīng)用程序或與文件系統(tǒng)緊密耦合地實現(xiàn)該應(yīng)用程序。然而,這種方法可能限制于使用具體應(yīng)用程序進行處理,并且不一定能從該應(yīng)用程序的未移植到文件系統(tǒng)中的實現(xiàn)中受益。
發(fā)明內(nèi)容
在一個方案中,通常,從分布式文件系統(tǒng)并行提取數(shù)據(jù)的新方法通過創(chuàng)建多個并行數(shù)據(jù)流使得期望單元的所有數(shù)據(jù)分區(qū)到多個流上來提供對文件系統(tǒng)中的一個或更多命名單元(例如,文件)的并行訪問。在一些例子中,多個流形成計算系統(tǒng)(諸如基于圖形的計算系統(tǒng)、基于數(shù)據(jù)流的系統(tǒng)和/或(例如,關(guān)系)數(shù)據(jù)庫系統(tǒng))的并行實現(xiàn)的多個輸入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于起元科技有限公司,未經(jīng)起元科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201480064544.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





