[發明專利]基于任務粒度的MapReduce報表任務執行方法有效
| 申請號: | 201310656006.X | 申請日: | 2013-12-05 |
| 公開(公告)號: | CN103699441B | 公開(公告)日: | 2017-07-18 |
| 發明(設計)人: | 鄒瑜斌;張帆;白雪;閆茜;須成忠 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙)44316 | 代理人: | 沈祖鋒,郝明琴 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 任務 粒度 mapreduce 報表 執行 方法 | ||
【技術領域】
本發明涉及一種基于任務粒度的MapReduce報表任務執行方法。
【背景技術】
在大數據時代,數據量成爆炸式增長,這導致了對數據的計算處理和有效存儲提出了極高的要求。Hadoop生態圈的提出為海量數據的大規模計算和分布式可靠存儲提供了一個強大的工具。在Hadoop中,MapReduce是一個為海量數據的批量分析和計算提供了一個可靠、易用、可規模化的關鍵組件,特別是廣泛用于基于海量日志數據的報表計算。然而,在現實使用中,MapReduce框架下的報表計算任務的執行受到了Hadoop集群的處理能力以及集群內部各節點之間數據傳輸速度的制約,特別是在多任務執行的情況下,MapReduce任務的執行不可避免地出現競爭。
針對相同數據集的報表計算任務往往有如下特點:(1)由于計算所基于的是同一個數據集,導致相同的數據可能會被多個MapReduce任務執行完全相同的讀取過程,由于Hadoop Distributed File System的讀寫性能是影響MapReduce計算性能的關鍵因素之一,所以針對相同數據的多個報表計算任務會重復讀取一個數據集導致性能下降;(2)Hadoop的MapReduce任務執行機制缺乏相應策略,現在原生的hadoop集群對于MapReduce多任務的執行沒有做出任何優化,如果存在相同或者可復用的報表計算任務,該任務仍會被執行多次;(3)基于相同數據集的報表計算任務通常是基于相同的計算條件的,因此,多個報表計算任務的某些計算子任務可以被合并。
現有常用方法是沒有進行任何優化,導致hadoop計算性能浪費。另一個方法是使用pig或者hive等工具來優化數據報表計算過程,但是pig和hive都是基于單個任務的優化,無法對一個任務的隊列進行整體優化,且pig和hive的優化取決于它們的腳本語句,對腳本編寫者的要求更高。
【發明內容】
本發明旨在解決上述現有技術中存在的問題,提出一種基于任務粒度的 MapReduce報表任務執行方法。
本發明提出的基于任務粒度的MapReduce報表任務執行方法包括以下步驟:S10、驗證數據報表任務Jobi的合法性以及優先級,將數據報表任務放入Job隊列中,其中,1≤i≤K,K為所述數據報表任務的個數;S20、基于最小粒度分割,依次對每一Jobi進行子任務劃分,得到包含所有子任務的集合Set1;S30、去除集合Set1中重復的子任務,得到集合Set2;S40、對集合Set2中的子任務進行最大粒度合并,得到集合Set3,其中,每一Jobi依賴于集合Set3中的若干子任務;S50、根據hadoop即時計算能力以及集合Set3的子任務數量創建運算單元;S60、由所述運算單元執行集合Set3的子任務。
本發明提出的基于任務粒度的MapReduce報表任務執行方法可以自適應尋找報表計算任務隊列中的可復用的子任務,并執行分割和合并,最大限度地利用Hadoop集群的計算能力和數據讀寫能力,有效地提高了計算效率。
【附圖說明】
圖1為本發明提出的基于任務粒度的MapReduce報表任務執行方法流程圖。
圖2為本發明提出的基于任務粒度的MapReduce報表任務執行方法環境架構圖。
圖3為本發明一實施例的基于任務粒度的MapReduce報表任務執行方法步驟示意圖。
【具體實施方式】
下面結合具體實施例及附圖對本發明作進一步詳細說明。下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明的技術方案,而不應當理解為對本發明的限制。
在本發明的描述中,術語“內”、“外”、“縱向”、“橫向”、“上”、“下”、“頂”、“底”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本發明而不是要求本發明必須以特定的方位構造和操作,因此不應當理解為對本發明的限制。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310656006.X/2.html,轉載請聲明來源鉆瓜專利網。





