[發明專利]基于多數據架構中心面向數據密集型應用的并行編程方法在審
| 申請號: | 201210359600.8 | 申請日: | 2012-09-24 |
| 公開(公告)號: | CN102880510A | 公開(公告)日: | 2013-01-16 |
| 發明(設計)人: | 王力哲 | 申請(專利權)人: | 中國科學院對地觀測與數字地球科學中心 |
| 主分類號: | G06F9/46 | 分類號: | G06F9/46;G06F9/50 |
| 代理公司: | 北京紐樂康知識產權代理事務所 11210 | 代理人: | 覃莉 |
| 地址: | 100094*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多數 架構 中心 面向 數據 密集型 應用 并行 編程 方法 | ||
技術領域
本發明涉及大規模數據密集型科學數據處理技術領域,尤其涉及一種基于多數據架構中心面向數據密集型應用的并行編程方法。
背景技術
萬維網的快速增長產生了大量可用的在線信息。此外,社會、科學和工程應用也產生了大量結構化和非結構化的信息,這些信息需要被處理、分析和連接。目前,典型的數據密集型計算使用數據中心架構和大規模數據處理模式。本發明研究基于多個數據中心的大規模數據處理模型。
近年來,多個分布式機群或數據中心的數據密集型科學數據分析需求顯著增長。一個數據密集型分析的好例子是高能物理領域(HEP,High?Energy?Physics),包括ALICE,ATLAS,CMS和LHCB在內的大型強子對撞機(LHC,Large?Hadron?Collider)的四個主要探測器在2010年產生了13PB的數據,這些大量數據存儲在LHC世界范圍內的計算網格中,包括分布在34個國家的140多個計算中心[3,4]。這些分布在全球的分布式計算中心通過廣域網相連,彼此之間的數據拷貝過程是低效而乏味的。通過在多個機群之上使用數據并行處理模式,科學家們的模擬計算能夠并發地在多計算中心上進行,并且不需要數據拷貝。
當前的數據密集型工作流系統,例如DAGMan、Pegasus、Swift、Kepler、Virtual?Workflow、Virtual?Data?System和Taverna,被用于跨多數據中心的分布式數據處理。在多數據中心上使用工作流模式有如下限制:1)工作流提供粗粒度并行,并且不能滿足高吞吐數據處理需求,這些高吞吐數據處理往往需要大規模并行處理;2)典型的數據密集型計算工作流系統需要多任務間大量的數據傳輸,有時會帶來不必要的數據塊或數據集移動;3)工作流系統必須考慮任務執行和數據傳輸的容錯問題,容錯是數據密集型計算實現的重要問題。將谷歌的MapReduce用于分布式數據中心的數據處理,能夠克服工作流系統的上述限制。
MapReduce是谷歌提出用于大規模數據集的并行編程模型,它基于兩個主要過程:映射(Map)和規約(Reduce)。映射函數用來把一組鍵值對映射成一組新的鍵值對,規約函數合并所有相同的中間值。許多現實世界的應用都采用MapReduce模型。Gfarm文件系統是一個分布式文件系統,用于共享全球范圍內大量的分布式數據。Gfarm文件系統支持在計算節點上的本地存儲能力。
因此目前亟需提出基于多數據中心面向數據密集型應用的并行編程方法設計和實現。為了共享多個管理域的數據集,我們使用了Gfarm文件系統來代替Hadoop的文件系統HDFS(Hadoop?Distributed?File?System)。用戶向Gfarm提交他們的MapReduce應用,基于多數據中心面向數據密集型應用的并行編程模型執行映射(map)和化簡(reduce)任務。
基于多數據中心面向數據密集型應用的并行編程方法提供了一個基于MapReduce的并行處理環境,處理分布式機群的大規模數據集。與現有的數據密集型工作流系統相比,該方法實現了細粒度的數據并行處理,達到高吞吐數據處理性能,并且提供大規模數據處理的容錯功能。
發明內容
本發明的目的是提供一種基于多數據架構中心面向數據密集型應用的并行編程方法,在保持各機群的自治性和現有Hadoop的MapReduce程序兼容性前提下,通過構建基于MapReduce編程模型的框架,能夠自動加載MapReduce任務,使之在多個全球分布的機群節點上并行執行,解決多數據中心的數據密集型應用的并行編程問題。
本發明的目的通過以下技術方案來實現:
一種基于多數據架構中心面向數據密集型應用的并行編程方法,包括以下步驟:
1)構建系統架構的主節點,接收用戶提交的若干作業,并通過主節點將所述作業分割成相對應的次一級任務,并將所述次一級任務分布到子節點上,?所述主節點包括元數據Metadata服務器和作業跟蹤程序JobTracker服務器,所述元數據Metadata服務器使用Gfarm文件系統未經修改的元數據服務器,元數據服務器管理分布在多個機群上的文件,決定文件的實際位置,管理文件的復制,協調多個客戶對文件的訪問;元數據服務器還需要管理用戶訪問控制信息,所述作業跟蹤程序JobTracker服務器使用一個數據感知的調度器,在考慮數據所在位置的基礎上,將計算任務分布到多個機群中;
2)構建系統架構的子節點,所述子節點包括任務跟蹤程序TaskTracker服務器、作業跟蹤程序、I/O服務器程序和網絡共享程序;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院對地觀測與數字地球科學中心,未經中國科學院對地觀測與數字地球科學中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210359600.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:接地線聲光報警裝置
- 下一篇:一種基于需求響應的能效間接監控裝置





