[發明專利]一種基于Spark的數據處理方法及系統在審

申請號：	201710335307.0	申請日：	2017-05-12
公開（公告）號：	CN107463595A	公開（公告）日：	2017-12-12
發明（設計）人：	木偉民;張云;李名揚;張明誠;王偉平	申請（專利權）人：	中國科學院信息工程研究所
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京君尚知識產權代理事務所(普通合伙)11200	代理人：	司立彬
地址：	100093 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于 spark 數據處理方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于分布式計算平臺的數據處理方法，其步驟為：

1)用戶根據待處理文檔的需求選取算子并配置所選取的算子參數，然后建立所選算子的連接關系，生成場景的XML文件；該場景的XML文件中包括每一所選算子的XML內容以及各算子的連接關系；

2)根據場景的XML文件生成相應的有向無環圖DAG；

3)將該有向無環圖DAG切分成若干能夠在分布式計算環境下執行的子任務subJob，在Spark計算框架下執行切分后得到的子任務subJob，實現對該待處理文檔的處理。

2.如權利要求1所述的方法，其特征在于，將該有向無環圖DAG切分成若干子任務subJob的方法為：

21)讀取該場景的XML文件，獲取每個算子的類型，判斷是否存在復雜算子；其中，所述復雜算子是指操作對象是數據全集的算子；

22)如果不存在復雜算子，則將該場景作為一個子任務subJob；如果存在復雜算子，則將該有向無環圖DAG中的每個算子都作為一個獨立的子任務subjob，然后按照設定規則對子任務subjob進行合并；所述算子分為兩類，即適配算子和計算算子；適配算子包括適配輸入算子和適配輸出算子，計算算子包括簡單計算算子和復雜計算算子；

所述設定規則包括：

1)簡單計算算子接簡單計算算子則合并

2)簡單計算算子接復雜計算算子則不合并

3)復雜計算算子接簡單計算算子則不合并

4)復雜計算算子接復雜計算算子則不合并

5)適配輸入算子接簡單計算算子則合并

6)適配輸入算子接復雜計算算子則不合并

7)簡單計算算子接適配輸出算子則合并

8)復雜計算算子接適配輸出算子則不合并

23)對于步驟22)處理后的子任務subjob，如果子任務subjob的結束端不是適配輸出算子或復雜算子，則在該子任務subjob末端加上sink算子，其中sink算子的功能為將數據存儲到hive臨時表中；如果子任務subjob的始端不是適配輸入算子或復雜算子，則在該子任務subjob始端加上scan算子，其中scan算子的功能為從hive臨時表中讀取數據。

3.如權利要求1或2所述的方法，其特征在于，步驟2)中，對該有向無環圖DAG進行判斷，確定該有向無環圖DAG中是否有環、有子環或者斷裂，如果有其中之一，則停止執行，并將結果反饋到該用戶所在的界面。

4.如權利要求1或2所述的方法，其特征在于，所述步驟3)中，執行子任務sujob之前，首先對子任務subjob進行掃描；掃描的過程中如果發現Reduce算子，則在該算子前面添加ReduceSink算子，如果沒有發現，則不做處理；掃描之后執行子任務subjob。

5.一種基于分布式計算平臺的數據處理系統，其特征在于，包括管理單元、執行單元和計算單元；其中，

所述管理單元，用于用戶根據待處理文檔的需求選取算子并配置所選取的算子參數，然后建立所選算子的連接關系，生成場景的XML文件；該場景的XML文件中包括每一所選算子的XML內容以及各算子的連接關系；

所述計算單元，用于根據場景的XML文件生成相應的有向無環圖DAG；

所述執行單元，用于將該有向無環圖DAG切分成能夠在分布式計算環境下執行的子任務subJob；然后將子任務subJob提交給分布式計算平臺執行。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所，未經中國科學院信息工程研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710335307.0/1.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】