[發明專利]一種基于DAG的面向多計算框架的數據處理方法及系統在審
| 申請號: | 201710295064.2 | 申請日: | 2017-04-28 |
| 公開(公告)號: | CN107273193A | 公開(公告)日: | 2017-10-20 |
| 發明(設計)人: | 木偉民;張云;李名揚;金宗澤;王偉平 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F9/48 | 分類號: | G06F9/48 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 司立彬 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dag 面向 計算 框架 數據處理 方法 系統 | ||
技術領域
本發明涉及一種基于DAG的面向多計算框架的數據處理方法及系統,屬于計算機軟件技術領域。
背景技術
目前的數據處理系統大都是針對某一個特定的計算框架,或某兩個特定的計算框架開發的。主要針對計算框架所處的集群情況進行模塊的開發和調優。注重時間信息同步和日志獲取這兩個主要功能。數據處理系統還沒有明確引入DAG(Directed acyclic graph,有向無環圖)概念,目前有向無環圖被廣泛應用在仿真任務并行度分析和動態重路由調度等方面。
目前的數據處理系統與計算框架綁定,不具有對于計算框架的擴展性。同時,針對計算框架開發,使數據處理系統與底層計算框架綁定,耦合度高,向其他計算平臺移植的難度大。以Spark為主的計算框架大都采用DAG做其主要的邏輯計劃和物理計劃載體,通過DAG特有的屬性完成計算。
發明內容
本發明的目的在于提供一種基于DAG的面向多計算框架的數據處理方法及系統。通過實現指定的編程接口,使用戶的開發脫離計算框架,降低開發難度,同時實現計算框架的可插拔。本發明通過構建算子之間的DAG,根據規則切分,合并,生成子作業的DAG,減少子作業數量,減少數據落地次數,提高計算框架的計算效率。
本發明的技術方案為:
一種基于DAG的面向多計算框架的數據處理方法,其步驟為:
1)用戶根據目標計算場景選取算子,然后對選取的算子的輸入輸出進行連接并配置相應的參數,得到該目標計算場景;然后向管理器發送保存場景信息的請求;
2)管理器接收該請求,將場景信息保存到場景表中;管理器收到該目標計算場景的執行請求后,讀取該場景表生成包含該目標計算場景信息的作業并發送給調度器;
3)調度器根據收到的作業生成對應的算子DAG并驗證;對于算子DAG驗證通過的算子生成子作業DAG;然后根據生成的子作業DAG確定每一執行階段并將其發送給執行器;
4)執行器對選定的計算框架進行適配,然后將調度器下發的每一執行階段的子作業解釋為該計算框架下的計算邏輯并觸發計算;然后將計算結果提交給調度器。
進一步的,所述調度器通過判斷算子DAG的數據結構正確性和邏輯正確性驗證算子DAG;其中,數據結構正確性即驗證算子DAG是否滿足有向無環圖要求,邏輯正確性即驗證算子前后連接和位置的正確性。
進一步的,所述調度器將同類算子合并在一起,生成子作業DAG;所述調度器對非同類算子進行切分,生成子作業DAG;其中,每一個子作業DAG中包含一個或多個算子。
進一步的,所述執行器根據生成的子作業DAG確定每一執行階段的方法為:所述執行器對子作業DAG按廣度優先的方式進行遍歷,將無父節點的節點歸并為同一個執行階段,然后邏輯上刪除無父結點且已經歸并為同一個執行階段的節點,對新暴露出來的無父結點且未歸并到任何執行階段中的節點進行歸并操作,直至子作業DAG為空,從而確定每一執行階段,每一個執行階段中包含一個或多個子作業。
進一步的,所述管理器還保存場景執行后得到的執行實例和針對需按時執行的場景的定時執行信息;每一所述執行實例為一作業;所述作業包括場景信息、場景參數、算子信息、算子參數。
一種基于DAG的面向多計算框架的數據處理系統,其特征在于,包括web頁面、管理器、調度器和執行器;其中,
web頁面,用于為用戶提供可視化的圖形用戶界面,根據目標計算場景選取算子,然后對選取的算子的輸入輸出進行連接并配置相應的參數,得到該目標計算場景;
管理器,用于保存算子信息、目標計算場景信息、用戶信息和向調度器下發作業;
調度器,用于根據收到的作業生成對應的算子DAG并驗證;對于算子DAG驗證通過的算子生成子作業DAG;然后根據生成的子作業DAG確定每一執行階段并將其發送給執行器;
執行器,用于對選定的計算框架進行適配,以及將調度器下發的每一執行階段的子作業解釋為該計算框架下的計算邏輯并觸發計算;然后將計算結果提交給調度器。
本發明提供的基于DAG的面向多計算框架的數據處理系統主要包括:web頁面、管理器、調度器和執行器。各部分以xml文件的形式交互,異步通信。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710295064.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種產品交易的推進方法、服務器及系統
- 下一篇:任務執行方法和終端設備





