[發明專利]一種基于Spark的數據處理方法及系統在審
| 申請號: | 201710335307.0 | 申請日: | 2017-05-12 |
| 公開(公告)號: | CN107463595A | 公開(公告)日: | 2017-12-12 |
| 發明(設計)人: | 木偉民;張云;李名揚;張明誠;王偉平 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 司立彬 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 spark 數據處理 方法 系統 | ||
1.一種基于分布式計算平臺的數據處理方法,其步驟為:
1)用戶根據待處理文檔的需求選取算子并配置所選取的算子參數,然后建立所選算子的連接關系,生成場景的XML文件;該場景的XML文件中包括每一所選算子的XML內容以及各算子的連接關系;
2)根據場景的XML文件生成相應的有向無環圖DAG;
3)將該有向無環圖DAG切分成若干能夠在分布式計算環境下執行的子任務subJob,在Spark計算框架下執行切分后得到的子任務subJob,實現對該待處理文檔的處理。
2.如權利要求1所述的方法,其特征在于,將該有向無環圖DAG切分成若干子任務subJob的方法為:
21)讀取該場景的XML文件,獲取每個算子的類型,判斷是否存在復雜算子;其中,所述復雜算子是指操作對象是數據全集的算子;
22)如果不存在復雜算子,則將該場景作為一個子任務subJob;如果存在復雜算子,則將該有向無環圖DAG中的每個算子都作為一個獨立的子任務subjob,然后按照設定規則對子任務subjob進行合并;所述算子分為兩類,即適配算子和計算算子;適配算子包括適配輸入算子和適配輸出算子,計算算子包括簡單計算算子和復雜計算算子;
所述設定規則包括:
1)簡單計算算子接簡單計算算子則合并
2)簡單計算算子接復雜計算算子則不合并
3)復雜計算算子接簡單計算算子則不合并
4)復雜計算算子接復雜計算算子則不合并
5)適配輸入算子接簡單計算算子則合并
6)適配輸入算子接復雜計算算子則不合并
7)簡單計算算子接適配輸出算子則合并
8)復雜計算算子接適配輸出算子則不合并
23)對于步驟22)處理后的子任務subjob,如果子任務subjob的結束端不是適配輸出算子或復雜算子,則在該子任務subjob末端加上sink算子,其中sink算子的功能為將數據存儲到hive臨時表中;如果子任務subjob的始端不是適配輸入算子或復雜算子,則在該子任務subjob始端加上scan算子,其中scan算子的功能為從hive臨時表中讀取數據。
3.如權利要求1或2所述的方法,其特征在于,步驟2)中,對該有向無環圖DAG進行判斷,確定該有向無環圖DAG中是否有環、有子環或者斷裂,如果有其中之一,則停止執行,并將結果反饋到該用戶所在的界面。
4.如權利要求1或2所述的方法,其特征在于,所述步驟3)中,執行子任務sujob之前,首先對子任務subjob進行掃描;掃描的過程中如果發現Reduce算子,則在該算子前面添加ReduceSink算子,如果沒有發現,則不做處理;掃描之后執行子任務subjob。
5.一種基于分布式計算平臺的數據處理系統,其特征在于,包括管理單元、執行單元和計算單元;其中,
所述管理單元,用于用戶根據待處理文檔的需求選取算子并配置所選取的算子參數,然后建立所選算子的連接關系,生成場景的XML文件;該場景的XML文件中包括每一所選算子的XML內容以及各算子的連接關系;
所述計算單元,用于根據場景的XML文件生成相應的有向無環圖DAG;
所述執行單元,用于將該有向無環圖DAG切分成能夠在分布式計算環境下執行的子任務subJob;然后將子任務subJob提交給分布式計算平臺執行。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710335307.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:水龍頭(LY1122)
- 下一篇:酒瓶(JPY禮酒30典藏)





