[發明專利]一種基于WEB的可視化大數據工作流配置方法及系統在審
| 申請號: | 201711246865.6 | 申請日: | 2017-12-01 |
| 公開(公告)號: | CN108037919A | 公開(公告)日: | 2018-05-15 |
| 發明(設計)人: | 張祺君;黃超;曹正鳳 | 申請(專利權)人: | 北京博宇通達科技有限公司 |
| 主分類號: | G06F8/34 | 分類號: | G06F8/34;G06F9/445;G06Q10/10 |
| 代理公司: | 北京正鼎專利代理事務所(普通合伙) 11495 | 代理人: | 岳亞 |
| 地址: | 100078 北京市豐*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 web 可視化 數據 工作流 配置 方法 系統 | ||
本公開公開了一種基于WEB的可視化大數據工作流配置方法及系統,通過瀏覽器使用拖拽的方式和向導界面實現工作流配置,提升開發效率,降低人員成本。同時,提供完善的MapReduce/Hive/Spark支持,當前主流的大數據處理程序為HiveSQL、MapReduce、Spark、SparkSQL,本公開試圖對上述大數據分布式處理程序提供完善的支持。進一步的,本公開的方案能夠提升運行速度,實現為輕量級的分布式工作流引擎,提升分布式程序的調度、運行速度,提升系統性能。
技術領域
本公開涉及大數據處理技術領域,具體涉及一種基于WEB的可視化大數據工作流配置方法及系統。
背景技術
大數據環境下數據來源非常豐富且數據類型多樣,存儲和分析挖掘的數據量龐大,對數據展現的要求較高,并且很看重數據處理的高效性和可用性。
傳統的數據采集來源單一,且存儲、管理和分析數據量也相對較小,大多采用關系型數據庫和并行數據倉庫即可處理。對依靠并行計算提升數據處理速度方面而言,傳統的并行數據庫技術追求高度一致性和容錯性,根據CAP理論,難以保證其可用性和擴展性。
傳統的數據處理方法是以處理器為中心,而大數據環境下,需要采取以數據為中心的模式,減少數據移動帶來的開銷。因此,傳統的數據處理方法,已經不能適應大數據的需求!
大數據的基本處理流程與傳統數據處理流程并無太大差異,主要區別在于:由于大數據要處理大量的結構化和非結構化的數據,所以在各個處理環節中都可以采用MapReduce等方式進行并行處理。
現有技術中,通常采用兩種辦法調度執行大數據Spark/MapReduce分布式程序,分別是采用Linux計劃任務方式調度和使用開源分布式工作流引擎調度。在編寫Spark/Mapreduce程序或者腳本,通過Linux計劃任務對這些程序進行調度運行。這么做生產率低、復雜度高,系統的維護成本也會非常高。采用開源的工作流引擎調度執行,目前有較常見開源的工作流引擎的有Oozie和Azkaban。
Apache Oozie是一個工作流引擎服務器,用于運行分布式任務工作流,運行在Tomcat等Java Servlet容器中。Oozie使用基于XML自定義處理的語言HPDL來定義工作流。Oozie工作流中包含分支、匯合等流程控制節點和執行節點(Action)。執行節點通常是獨立的Hadoop Map Reuce任務、Hadoop Pig任務等,所有的Action以有向無環圖(DAG DirectAcyclic Graph)的模式部署運行。
Apache Oozie還存在很多問題,主要有:a.實現機制低效,執行的時候需要把所有程序文件保存到HDFS中,在執行時再將程序文件下載到運行節點執行。該機制造成流程的支撐有較多的延時;b.穩定性不夠,當前Oozie的成熟度還比較低,存在非常多BUG以及修正速度很慢;c.工作流工作繁瑣,需要編寫大量的XML配置文件,非常容易出錯。
Azkaban是由Linkedin公司推出的一個批量工作流任務調度器,用于在一個工作流內以一個特定的順序運行一組工作和流程。Azkaban使用job配置文件建立任務之間的依賴關系,并提供一個web用戶界面維護和跟蹤工作流。
Azkaban具有相當的局限性,包括:a.任務之間的依賴,不能夠指定部分完成;b.目前支持的分布式程序類型較少,目前只支持Java程序、HadoopShell、Pig、Hive、Hive2等程序,尚不支持主流的Spark、Spark SQL等分布式大數據應用程序類型。
現有技術中,使用Linux計劃任務調度的方式需要手工編寫計劃任務腳本,具有配置繁瑣和維護成本很高的問題。
配置繁瑣。使用手工編寫計劃任務腳本的方式,配置過程繁瑣,正確性難以得到有效驗證。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京博宇通達科技有限公司,未經北京博宇通達科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711246865.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種采用單位陣法評價藥物制劑溶出度相似程度的方法
- 下一篇:一種海鹽夏威夷果
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





