[發明專利]MapReduce架構中的資源管理方法、裝置和架構系統有效
| 申請號: | 201310037826.0 | 申請日: | 2013-01-31 |
| 公開(公告)號: | CN103970520B | 公開(公告)日: | 2017-06-16 |
| 發明(設計)人: | 史巨偉;李立;鄒嘉;于琦 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F9/44 | 分類號: | G06F9/44;G06F9/50 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所11038 | 代理人: | 李鎮江 |
| 地址: | 美國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | mapreduce 架構 中的 資源管理 方法 裝置 系統 | ||
技術領域
本發明涉及MapReduce架構,并且更具體地,涉及MapReduce架構中用于資源管理的方法和裝置以及具有該裝置的MapReduce架構系統。
背景技術
MapReduce架構是一種編程模型架構,用于大規模數據集(例如大于1TB)的并行運算。MapReduce通過借助于主控節點的控制將數據集的大規模操作分發給網絡上的計算節點來進行分布式處理,以提高對大規模數據的執行速度和效率。MapReduce將諸如對大量數據進行詞頻統計之類的MapReduce作業劃分為多個Map(映射)任務和多個Reduce(化簡)任務,Map任務的輸出結果作為Reduce任務的輸入數據。
目前,MapReduce架構包括將近200個系統參數,用戶通過設置這些系統參數中的一部分或全部來指定能夠用于處理一個MapReduce作業的資源以及如何利用這些資源等。然而,這些系統參數的設置是由用戶根據經驗等人為確定的,而沒有考慮到節點的處理能力和/或資源情況。這樣設置出來的系統參數常常并不優化,例如,用戶自己設置的系統參數可能導致節點處理效率低下等問題。
舉例來說,假設MapReduce中一個Map任務需要處理的輸入切片大小為1000MB,對應的輸出數據為300MB。如果該Map任務占用Map資源槽(slot)后被分配的內存為100MB,那么,由于輸出數據大于內存,所以Map操作后得到的每條記錄將首先作為中間結果溢出到磁盤,再由該Map任務分三次從磁盤讀取中間結果,對其進行排序和合并,并將最終的Map輸出結果再次溢出到磁盤,以供Reduce任務讀取。
在這種情況下,由于Map任務的輸入切片大小過大,使得Map輸出結果的數據量(300MB)大于能夠處理該Map任務的內存大小(100MB),造成了需要將對輸入數據進行Map操作得到的數據首先溢出到磁盤中、再多次對磁盤進行反復讀寫才能得到最終Map輸出結果的問題,嚴重影響處理效率。
發明內容
本發明實施例提供了用于MapReduce架構中的資源管理的方法、裝置和MapReduce架構系統,能夠盡可能避免在Map任務的輸入切片大小與內存不匹配的情況下所造成的反復對磁盤進行讀寫的問題,從而提高Map任務的處理效率。
根據本發明的一個方面,提供了一種用于MapReduce架構中的資源管理的方法,包括:確定Map任務的輸入數據量和Map任務的輸出數據量之比r以及Map輸出結果中記錄的平均大小R;確定一個Map資源槽對應的能夠分配給Map任務的內存大小Memory_Size;根據所確定的r、R和Memory_Size,確定適合該Map任務的輸入切片大小;以及將待處理的MapReduce作業中具有該輸入切片大小的輸入分片分配給占用該Map資源槽的Map任務。
根據本發明的另一方面,提供了一種用于MapReduce架構中的資源管理的裝置,包括:第一確定部件,被配置為確定Map任務的輸入數據量和Map任務的輸出數據量之比r以及Map輸出結果中記錄的平均大小R;第二確定部件,被配置為確定一個Map資源槽對應的能夠分配給Map任務的內存大小Memoy_Size;第三確定部件,被配置為根據所確定的r、R和Memory_Size,確定適合該Map任務的輸入切片大??;以及第一分配部件,被配置為將待處理的MapReduce作業中具有該輸入切片大小的輸入分片分配給占用該Map資源槽的Map任務。
根據本發明的再一方面,提供了一種包含上述裝置的MapReduce架構系統。
根據本發明實施例提供的上述技術方案,通過預先估計出一個Map資源槽對應的能夠分配給Map任務的內存大小,可以根據該內存大小向占用該Map資源槽的Map任務分配相匹配的輸入切片大小,從而盡可能避免輸入切片大小和內存大小不匹配而導致的多次磁盤溢出以及在該情況下造成的對磁盤的反復讀寫,因此能夠提高Map任務的處理效率,避免資源浪費。
附圖說明
通過結合附圖對本公開示例性實施方式進行更詳細的描述,本公開的上述以及其它目的、特征和優勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標號通常代表相同部件。
圖1示出了適于用來實現本發明實施方式的示例性計算機系統/服務器12的框圖。
圖2是根據本發明實施例的用于MapReduce架構中的資源管理的方法的流程圖。
圖3是根據本發明實施例的確定Map任務的輸入切片大小的方法的流程圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310037826.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:報警器電路
- 下一篇:一種通信電纜保護電路





