[發(fā)明專利]一種基于DAP平臺的大數(shù)據(jù)處理方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010562473.6 | 申請日: | 2020-06-18 |
| 公開(公告)號: | CN113821560A | 公開(公告)日: | 2021-12-21 |
| 發(fā)明(設(shè)計)人: | 朱添麟;黃家時 | 申請(專利權(quán))人: | 中興通訊股份有限公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06F16/28;H04L29/08;G06F16/182;G06F16/18;G06F9/48;G06F9/451 |
| 代理公司: | 北京德崇智捷知識產(chǎn)權(quán)代理有限公司 11467 | 代理人: | 楊楠 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 dap 平臺 數(shù)據(jù)處理 方法 系統(tǒng) | ||
本發(fā)明公開一種基于DAP平臺的大數(shù)據(jù)處理方法,包括以下步驟,對系統(tǒng)進行大數(shù)據(jù)處理配置;進行可視化作業(yè)建模,保存并輸出大數(shù)據(jù)作業(yè)任務(wù);對大數(shù)據(jù)作業(yè)任務(wù)進行作業(yè)調(diào)度管理并監(jiān)控;將大數(shù)據(jù)作業(yè)任務(wù)發(fā)送到SPARK集群;進行作業(yè)解析與執(zhí)行,并獲取作業(yè)的狀態(tài)和日志。本發(fā)明還提供一種基于DAP平臺的大數(shù)據(jù)處理系統(tǒng),不僅支持更多樣的數(shù)據(jù)資源間的輸入輸出與轉(zhuǎn)換,而且支持大批量并發(fā)大數(shù)據(jù)量的數(shù)據(jù)轉(zhuǎn)換任務(wù),有效地節(jié)省了中心服務(wù)器的資源,提高了大數(shù)據(jù)ETL作業(yè)的執(zhí)行效率,減少了數(shù)據(jù)整合的時間,實現(xiàn)了各個異構(gòu)的數(shù)據(jù)源之間及時有效的整合。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及基于DAP平臺的大數(shù)據(jù)處理方法及系統(tǒng)。
背景技術(shù)
由于城市各部門系統(tǒng)具有不同的業(yè)務(wù)模式,并且早期的部門信息系統(tǒng)的建設(shè)并沒有采用整體統(tǒng)一的設(shè)計,導(dǎo)致各部門存儲的業(yè)務(wù)數(shù)據(jù)類型具有較大差異,各部門之間的信息交互存在困難,城市整體信息數(shù)據(jù)存在冗余并且數(shù)據(jù)利用率較低的問題。
為了有效地整合異構(gòu)的各部門數(shù)據(jù)資源,打破部門壁壘,連接信息孤島,實現(xiàn)城市各部門系統(tǒng)之間數(shù)據(jù)的共享交換,使用ETL(Extract-Transform-Load)工具編排數(shù)據(jù)處理任務(wù)。通常情況下ETL任務(wù)不依附于大數(shù)據(jù)處理平臺,當(dāng)整合數(shù)據(jù)量較大時,ETL任務(wù)運行時間長,并且存在大批量并發(fā)任務(wù)時,任務(wù)執(zhí)行緩慢,數(shù)據(jù)無法得到及時有效的處理。
目前行業(yè)常用的數(shù)據(jù)轉(zhuǎn)換大多是基于開源kettle來開發(fā),基于Kettle的數(shù)據(jù)引擎可以提供可視化編排數(shù)據(jù)處理流程,能打通多樣數(shù)據(jù)源,具有豐富的數(shù)據(jù)加工處理能力,但是kettle在大數(shù)據(jù)、分布式計算方面不夠靈活,集群式作業(yè)編排技術(shù)門檻高,有些數(shù)據(jù)加工組件不支持集群式;大數(shù)據(jù)組件的使用前提是大數(shù)據(jù)平臺上的計算代碼需要人工預(yù)先編寫編譯,難度大,工作量大;同時,基于kettle的數(shù)據(jù)處理對運行任務(wù)的中心服務(wù)器資源要求很高,當(dāng)并發(fā)任務(wù)比較多的時候容易遇到較大瓶頸,導(dǎo)致數(shù)據(jù)無法得到有效處理。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明提供一種基于DAP平臺的大數(shù)據(jù)處理方法及系統(tǒng),支持大批量并發(fā)大數(shù)據(jù)量的數(shù)據(jù)轉(zhuǎn)換任務(wù),能夠以保證數(shù)據(jù)得到及時有效的處理。
為達(dá)到上述目的,本發(fā)明提供的基于DAP平臺的大數(shù)據(jù)處理方法,包括以下步驟:
對系統(tǒng)進行大數(shù)據(jù)處理配置;
編排并輸出大數(shù)據(jù)作業(yè)任務(wù);
對大數(shù)據(jù)作業(yè)任務(wù)進行作業(yè)調(diào)度管理并監(jiān)控;
將大數(shù)據(jù)作業(yè)任務(wù)發(fā)送到SPARK集群;
進行作業(yè)解析與執(zhí)行,并獲取作業(yè)的狀態(tài)和日志。
進一步地,對系統(tǒng)進行大數(shù)據(jù)處理配置的步驟,包括,任務(wù)提交管理配置、大數(shù)據(jù)平臺配置、大數(shù)據(jù)作業(yè)選擇,以及大數(shù)據(jù)執(zhí)行參數(shù)配置,其中,
任務(wù)提交管理配置,設(shè)置任務(wù)提交方式為通過Livy提交任務(wù),配置DAP主機地址、主機端口、用戶名及密碼;
大數(shù)據(jù)平臺配置,包括,Hadoop分布式文件系統(tǒng)屬性配置、zookeeper屬性配置、dapmanager地址配置、ranger地址配置。所述Hadoop分布式文件系統(tǒng)屬性配置,包括服務(wù)名稱、節(jié)點列表、代理配置、主從節(jié)點端口與端口;
大數(shù)據(jù)執(zhí)行參數(shù)配置,包括,執(zhí)行參數(shù)、資源接口、變量設(shè)置。
進一步地,進行編排并輸出大數(shù)據(jù)作業(yè)任務(wù)的步驟,包括,基于Apache Beam SDK設(shè)計,進行可視化作業(yè)建模,利用拖拽的方式實現(xiàn)組件編排大數(shù)據(jù)作業(yè)任務(wù)。
進一步地,對大數(shù)據(jù)作業(yè)任務(wù)進行作業(yè)調(diào)度管理并監(jiān)控的步驟,包括,
創(chuàng)建并提交Batch作業(yè)請求,對大數(shù)據(jù)ETL作業(yè)任務(wù)進行作業(yè)調(diào)度管理和監(jiān)控作業(yè)的執(zhí)行情況,更新作業(yè)狀態(tài)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中興通訊股份有限公司,未經(jīng)中興通訊股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010562473.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種平整液濃度的檢測方法
- 下一篇:腐植酸山藥復(fù)方及其制程
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





