[發(fā)明專利]分布式文件系統(tǒng)中的數(shù)據(jù)的并行訪問有效

申請?zhí)枺?/td>	201480064544.2	申請日：	2014-11-21
公開（公告）號：	CN105765578B	公開（公告）日：	2020-04-17
發(fā)明（設(shè)計）人：	A·M·沃爾蕾斯;B·P·杜羅斯;M·A·伊斯曼;T·韋克林	申請（專利權(quán)）人：	起元科技有限公司
主分類號：	G06F16/182	分類號：	G06F16/182;G06F16/13
代理公司：	隆天知識產(chǎn)權(quán)代理有限公司 72003	代理人：	李靜;張浴月
地址：	美國馬***	國省代碼：	暫無信息
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	分布式文件系統(tǒng) 中的數(shù)據(jù) 并行訪問
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

從分布式文件系統(tǒng)(110)并行訪問數(shù)據(jù)的方法通過創(chuàng)建多個并行數(shù)據(jù)流使得期望單元的所有數(shù)據(jù)分區(qū)到多個流上來提供對文件系統(tǒng)中的一個或更多命名單元(例如，文件)的并行訪問。在一些例子中，多個流形成計算系統(tǒng)(130)(諸如基于圖形的計算系統(tǒng)、基于數(shù)據(jù)流的系統(tǒng)和/或(例如，關(guān)系)數(shù)據(jù)庫系統(tǒng))的并行實現(xiàn)的多個輸入。

相關(guān)申請的交叉引用

本申請要求享有2013年11月26日提交的序列號為14/090,434的美國申請的優(yōu)先權(quán)。

技術(shù)領(lǐng)域

本發(fā)明涉及分布式文件系統(tǒng)中的數(shù)據(jù)的并行訪問。

背景技術(shù)

分布式文件系統(tǒng)的一個例子是Hadoop分布式文件系統(tǒng)(HDFS)。HDFS是用Java編寫的可擴展、可移植的分布式文件系統(tǒng)。HDFS具有為文件系統(tǒng)中的多個文件保存數(shù)據(jù)且能夠通過數(shù)據(jù)網(wǎng)絡(luò)提供文件塊的一組節(jié)點(“數(shù)據(jù)節(jié)點”)。每一個文件通常分布在多個節(jié)點上。通過一組節(jié)點(“名稱節(jié)點”)來維護文件系統(tǒng)的目錄。該目錄能夠用于識別文件系統(tǒng)中的每個命名文件的多個分布式塊的位置。

參照圖1A-圖1B，使用MapReduce編程模型是處理分布式文件系統(tǒng)(例如，HDFS)中的數(shù)據(jù)的一種方式。通常，MapReduce程序包括映射(Map)進程和歸約(Reduce)進程，其中映射進程進行過濾和排序(例如，按名字把學(xué)生排成隊列，每個名字排一個隊列)，歸約進程進行總結(jié)操作(例如，計數(shù)每個隊列中學(xué)生的人數(shù)，產(chǎn)生名字頻率)。系統(tǒng)的用戶指定映射進程和歸約進程，但不一定要確定每個進程(即，“過程”)的實例(或調(diào)用)的數(shù)目或者它們執(zhí)行所在的節(jié)點。相反，“MapReduce系統(tǒng)”(也稱為“架構(gòu)”、“框架”)通過編組一組分布式節(jié)點來進行編排，并行運行各種任務(wù)(例如，映射進程和歸約進程及相關(guān)聯(lián)的通信)，管理系統(tǒng)的各個部分之間的所有通信和數(shù)據(jù)傳送，提供冗余和故障并且整體管理整個過程來進行協(xié)調(diào)管理。MapReduce系統(tǒng)能夠安排映射進程和歸約進程的實例的執(zhí)行，并知道數(shù)據(jù)位置。在圖1A中，HDFS是分布式文件系統(tǒng)110的一個例子，而Hadoop框架是分布式處理系統(tǒng)的一個例子，這樣一組映射進程24在多個處理器122上并行執(zhí)行以處理分布式文件的多個部分14并在文件系統(tǒng)110中存儲多個輸出文件16。在圖1B中，一組歸約進程26處理映射進程的多個輸出以產(chǎn)生多個輸出文件18，從而完成了MapReduce執(zhí)行。

雖然使用與MapReduce系統(tǒng)集成的分布式文件系統(tǒng)能夠獲得計算優(yōu)勢，然而訪問與其它編程范例一起進行處理的數(shù)據(jù)可能是低效的。例如，數(shù)據(jù)的提取可能導(dǎo)致瓶頸，例如，文件的全部數(shù)據(jù)通過單數(shù)據(jù)流傳遞(即使數(shù)據(jù)的處理本身是并行的)。例如，HDFS提供文件系統(tǒng)命令(hadoop fs-cat文件)，該命令將文件的內(nèi)容傳遞到標(biāo)準(zhǔn)輸出端口并可能地流式傳輸?shù)娇刹⑿刑幚韮?nèi)容的過程或服務(wù)器。

避免此類瓶頸的一種方法是將大文件明確分成多個單獨的命名部分(即，目錄中的各個條目)，然后促使每個部分在單獨的流中被提取。然而，這類方法可能存在缺點，例如，需要有關(guān)例如這些部分的數(shù)量和提取的這些部分所在的節(jié)點的潛在次優(yōu)選擇的先前決策，因為這些命名部分本身是分布式的。

將數(shù)據(jù)從分布式文件系統(tǒng)提供到一個應(yīng)用程序(例如，數(shù)據(jù)庫引擎)的另一種方法是在文件系統(tǒng)內(nèi)實現(xiàn)該應(yīng)用程序或與文件系統(tǒng)緊密耦合地實現(xiàn)該應(yīng)用程序。然而，這種方法可能限制于使用具體應(yīng)用程序進行處理，并且不一定能從該應(yīng)用程序的未移植到文件系統(tǒng)中的實現(xiàn)中受益。

發(fā)明內(nèi)容

在一個方案中，通常，從分布式文件系統(tǒng)并行提取數(shù)據(jù)的新方法通過創(chuàng)建多個并行數(shù)據(jù)流使得期望單元的所有數(shù)據(jù)分區(qū)到多個流上來提供對文件系統(tǒng)中的一個或更多命名單元(例如，文件)的并行訪問。在一些例子中，多個流形成計算系統(tǒng)(諸如基于圖形的計算系統(tǒng)、基于數(shù)據(jù)流的系統(tǒng)和/或(例如，關(guān)系)數(shù)據(jù)庫系統(tǒng))的并行實現(xiàn)的多個輸入。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于起元科技有限公司，未經(jīng)起元科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201480064544.2/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：用于酶變體的自動篩選的方法、裝置和系統(tǒng)
下一篇：使用數(shù)據(jù)結(jié)構(gòu)處理搜索查詢

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】