[發明專利]在具有存儲網絡的數據中心進行MapReduce數據傳輸的方法和系統有效
| 申請號: | 201010138992.6 | 申請日: | 2010-03-31 |
| 公開(公告)號: | CN102209087A | 公開(公告)日: | 2011-10-05 |
| 發明(設計)人: | 薛偉;蔡斌;向哲;楊博;李立 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | H04L29/08 | 分類號: | H04L29/08 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 于靜;楊曉光 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 具有 存儲 網絡 數據中心 進行 mapreduce 數據傳輸 方法 系統 | ||
技術領域
本發明涉及MapReduce,特別涉及在具有存儲網絡的數據中心進行MapReduce數據傳輸的方法和系統。
背景技術
MapReduce是Google提出的一個軟件架構,用于大規模數據集(大于1TB)上的并行運算。概念“Map(映射)”和“Reduce(化簡)”及其主要思想,都是從函數式編程語言借來的。當前的MapReduce中間件實現要求應用開發者指定一個Map(映射)函數,用來把一組鍵值對映射成一些新的鍵值對,稱作中間鍵值對;此外還要求應用開發者指定一個Reduce(化簡)函數,用來對Map函數輸出的中間鍵值對進行進一步處理。Map調用把輸入數據自動分割成M片輸入數據分片,這些輸入數據分片能夠被分布到多臺機器上做并行處理。Reduce調用則通過分割函數分割中間鍵,從而形成R片(例如,hash(key)mod?R),它們也會被分布到多臺機器上。分割數量R和分割函數由用戶來指定。MapReduce通過把對數據集的大規模操作分發給網絡上的多個節點來實現伸縮性。
目前,MapReduce被認為是構建數據中心的重要程序設計規范,已經有非常廣泛的應用,典型的應用包括:分布式grep,分布式排序,web訪問日志分析,反向索引構建,文檔聚類,機器學習,基于統計的機器翻譯等等。為了滿足MapReduce處理/產生大數據量的需要,需要構建應用MapReduce的基礎網絡架構,例如,采用融合網絡結構的新型數據中心。然而,對于傳統的數據中心,如果重新構建應用MapReduce的基礎網絡架構,需要耗費大量的財力。圖1示出具有存儲網絡的傳統數據中心的網絡架構示意圖,傳統數據中心的網絡拓撲?通常由兩個網絡組成,一個是局域網(LAN),一個是存儲網絡(SAN)。SAN是專用的高性能網絡,用于在各種服務器和存儲資源之間傳輸數據,避免了傳統的消息網絡(如LAN通常使用的TCP/IP網絡)中通常會遇到的客戶端和服務器之間的流量沖突問題。圖2示出根據現有技術在具有存儲網絡的傳統數據中心進行MapReduce數據傳輸的示意圖,由于現有的MapReduce中間件是通過HTTP應用層協議將Map任務的輸出結果傳輸給Reduce任務,因此需要用到TCP/IP協議棧,在這種情形下,只能通過LAN這個低性能網絡將Map任務的輸出結果傳輸給Reduce任務,從而導致MapReduce數據作業的處理效率低下。
因此,需要一種在不改變傳統數據中心的硬件架構的前提下提高MapReduce數據傳輸效率的方法。
發明內容
基于上述問題,本發明提供一種在具有存儲網絡的數據中心進行MapReduce數據傳輸的方法和系統。
根據本發明的第一方面,提供一種在具有存儲網絡(SAN)的數據中心進行MapReduce數據傳輸的方法,該數據中心包括部署有作業服務器、Map任務服務器和Reduce任務服務器的多臺服務器,該方法包括:響應于接收到作業服務器分配的Map任務,Map任務服務器執行Map任務并產生Map任務輸出結果;Map任務服務器將Map任務輸出結果寫入存儲網絡;以及響應于接收到作業服務器分配的Reduce任務,Reduce任務服務器從存儲網絡讀取Map任務輸出結果。
根據本發明的第二方面,提供一種在具有存儲網絡(SAN)的數據中心進行MapReduce數據傳輸的系統,該系統包括:作業服務器,被配置為指定Map任務服務器執行Map任務以及指定Reduce服務器執行Reduce任務;Map任務服務器,被配置為響應于接收到作業服務器分配的Map任務,執行Map任務并產生Map任務輸出結果,并將Map任務輸出結果寫入存儲網絡;Reduce任務服務器,被配置為響應于接收到作業服務器分配的Reduce任務,從存儲網絡讀取Map任務輸出結果。
根據本發明實施例的方法和系統,在保持傳統數據中心的硬件架?構的前提下,直接從存儲網絡讀取Map任務輸出結果,充分利用存儲網絡的網絡帶寬,充分發揮出傳統數據中心雙網絡架構的性能。
附圖說明
結合附圖,通過參考下列詳細的示例性實施例的描述,將會更好地理解本發明本身、優選的實施方式以及本發明的目的和優點,其中:
圖1示出具有存儲網絡的傳統數據中心的網絡架構示意圖;
圖2示出根據現有技術在具有存儲網絡的傳統數據中心進行MapReduce數據傳輸的示意圖;
圖3示出根據本發明的實施例在具有存儲網絡的數據中心進行MapReduce數據傳輸的示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010138992.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:部件整裝支架安裝結構
- 下一篇:用于制造汽車元件的方法和車身構件





