[發明專利]一種基于Hadoop集群的網絡預測與調度方法在審

申請號：	201510767233.9	申請日：	2015-11-11
公開（公告）號：	CN105429893A	公開（公告）日：	2016-03-23
發明（設計）人：	申彥明;王志剛	申請（專利權）人：	大連理工大學
主分類號：	H04L12/801	分類號：	H04L12/801;H04L12/911;H04L29/08
代理公司：	大連理工大學專利中心 21200	代理人：	潘迅;梅洪玉
地址：	116024 遼***	國省代碼：	遼寧;21
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 hadoop 集群網絡預測調度方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于計算機應用技術領域，涉及一種基于Hadoop集群的網絡預測與調度方法。

背景技術

隨著信息和數據爆炸式增長，海量數據處理平臺日益重要。Hadoop是一個能夠進行分布式處理的存儲計算平臺，具有優異的可靠性和可擴展性，它憑借著高容量和低成本的雙重優勢，展現了對于海量數據良好的處理能力。

Hadoop依據MapReduce編程模型，將一個任務分為map任務與reduce任務，在這之間存在shuffle階段用來將map的結果傳輸到reduce所在的節點。由于網絡傳輸速度遠遠小于計算機內部數據傳輸速度，所以在shuffle階段，網絡傳輸已經成為限制作業完成時間的一個“瓶頸”。如何提高shuffle階段網絡傳輸速度已經成為越來越多學者研究的課題。目前，對于網絡預測最常見的方法就是在網絡層通過對交換機的分析得出網絡流量，根據網絡情況將各個流分配到合適的路徑上。這種方法存在問題：在預測方面，由于采用TCP網絡傳輸協議的擁塞控制會導致在傳輸中監測的結果沒有真實反映出對網絡的真實需求，而且這種方法是被動的；在大數據多作業的情況下，網絡流之間有相互依賴的關系，僅僅考慮流的調度可能會造成作業的滯后。

發明內容

為了解決現有問題，本發明提供了一種基于Hadoop集群的網絡預測與調度方法，該方法從應用層來分析網絡流量并且考慮網絡流之間的依賴關系。

為了達到上述目的，本發明采用的技術方案是：

本發明詳細分析Hadoop運行過程，中間結果組織方式，提取相關信息；采用實時監控的方法分析Hadoop中間結果，提取出每個作業(Hadoop程序)的map與reduce之間所需傳遞的數據量；將采集到的信息傳遞到中央控制器中為網絡調度提供依據。

一種基于Hadoop集群的網絡預測與調度方法，通過分析Hadoop運行所產生的中間臨時文件，從應用層角度預測網絡流量；根據預測的網絡流量信息，考慮Hadoop運行時網絡流之間的相互依賴關系，以網絡流所屬Hadoop的作業(Hadoop程序)為單位，按照優先級的高低對網絡流進行調度，具體包括以下步驟：

第一步，預測：整體Hadoop集群的預測采用C/S模式，在集群的每個節點運行監控程序；

1)Hadoop采用MapReduce編程模型，一個Hadoop作業分為map任務和reduce任務，Hadoop作業在map任務的執行結果并沒有存儲到其自身提供的HDFS文件系統中，而是暫時儲存在相應節點的本地磁盤上；利用Linux本身的inotify機制，從Hadoop運行時產生的中間數據中提取出Hadoop應用對網絡的需求；所述的中間數據的組織形式分為工作目錄和日志目錄，工作目錄和日志目錄隨著Hadoop任務的運行臨時創建和刪除；

2)由于inotify只支持監測存在的文件，設計動態監測系統對工作目錄和日志目錄進行實時監測，首先在工作目錄和日志目錄分別監測各自子目錄創建事件，然后在子目錄創建其子目錄的創建事件，以此類推，直到監測到“attempt_xxxx_xxx”目錄和“container_xxxx_xxx”目錄。

對于工作目錄，監測attempt_xxxx_xxx目錄下file.out.index的創建事件，按照file.out.index的存儲格式解析出該map向每個reduce傳輸的數據量；

對于日志目錄，提取出container_xxxx_xxx目錄下的作業ID；監測container_xxxx_xxx目錄下syslog的修改事件，Hadoop具有“先寫日志后操作”的特點，Hadoop中每個reduce最多向5個map請求抓取數據，從syslog的修改事件中提取關于該map與reduce的發送日志信息，解析出網絡數據流的目的地址，將提取的時間作為各對map/reduce網絡傳輸的網絡時間預測，判斷每一對map/reduce何時開始進行傳輸，由于在map節點進行預測，所以網絡數據流的源地址就是本機的IP地址。

3)將“源地址，數據量，目的地址，作業ID，時間”的五元組信息發送給中央控制器，中央控制器以作業ID為單位存儲預測信息，按照先來先服務的原則，將最先監測到的網絡流所屬的作業設置為最高優先級，下一個監測到的網絡流所屬的作業設置為次高優先級，依次類推將監測到的作業設置相應優先級。

第二步，調度：根據網絡數據流之間的相互關系進行調度

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于大連理工大學，未經大連理工大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201510767233.9/2.html，轉載請聲明來源鉆瓜專利網。