[發明專利]分布式的數據分析任務調度系統在審
| 申請號: | 201610712300.1 | 申請日: | 2016-08-23 |
| 公開(公告)號: | CN107766147A | 公開(公告)日: | 2018-03-06 |
| 發明(設計)人: | 孫冬雪;萬英杰;李娟;史寧;鮑遠松;黃明;李亞貝 | 申請(專利權)人: | 上海寶信軟件股份有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06F17/30 |
| 代理公司: | 上海漢聲知識產權代理有限公司31236 | 代理人: | 郭國中 |
| 地址: | 201203 上海市浦*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分布式 數據 分析 任務 調度 系統 | ||
技術領域
本發明涉及數據分析任務調度,具體地,涉及分布式的數據分析任務調度系統,能夠廣泛應用于工業過程數據的數據分析程式的調度執行。
背景技術
隨著工業4.0的持續深度推進和物聯網等技術的發展,移動設備、RFID等物體追蹤設備在工業生產中的應用越來越廣泛,數據的爆發性增長將會成為趨勢。與此同時,企業精細化的管理的推進需要更多的數據量和更廣泛的數據維度的分析為企業決策提供支持,而伴隨企業信息化系統多年的使用,很多企業內部都產生了大量的歷史數據,但對其分析利用并不充分。如何充分地挖掘利用現有和新增的大量業務數據?對比研究傳統的工業應用的BI工具,主要存在以下幾點不足:
(1)大量的數據分析任務不能自動進行分布式調度,常常導致數據分析任務堆積在單個節點,導致節點資源消耗較多,執行效率低下。
(2)數據分析任務存在單節點故障問題,當運行于單節點的分析任務失敗后,無重啟執行機制。
(3)缺陷有效地定時任務調度功能,無法滿足定周期或者定間隔執行的分析任務的調度需求。
(4)數據源與分析結果的數據存儲普遍沒有利用分布式結構,結果容易受到結果存儲節點的單機故障的影響,有可能造成數據丟失。
R語言是專門為統計和數據分析開發的開源語言,對不同操作系統兼容性好,編程簡潔,是統計分析人員比較喜歡的編程工具平臺。成熟數據挖掘算法包豐富且在不斷增長,也有強大的分析結果可視化模塊,如ggplot的多圖層繪圖。但其缺點是:對大文本處理比較差,雖然數據分析部分很強,但是對于數據管理部分缺乏,所以經常需要在外部環境做好后數據分割后,再轉到R語言平臺進行分析應用。
在已經公開的論文研究中,楊霞,吳東偉的《R語言在大數據處理中的應用》,主要介紹Revolution Analytics公司的RHadoop擴展包的特點和使用方式,利用該包可以在R里寫Map-Reduce程序,劉聞飛的《基于R語言和Hadoop的集成技術及其實現研究》,主要介紹了利用Hadoop Streaming的方式集成執行R程序。申請號為CN201610074884.4,名稱:分布式計算框架的任務調派系統,該專利文獻公開了一種分布式計算框架的任務調派系統,其中包括應用服務器、任務隊列服務平臺與Redi s服務平臺。應用服務器用于部署多個業務處理服務;任務隊列服務平臺由多個任務服務器透過網路集群,任務隊列服務平臺中部署zookeeper服務,任務調度操作用于處理zookeeper服務的消息隊列的新的客戶任務;由多個Redi s服務器透過網路連接構成,Redis服務平臺經由網路連接于任務隊列服務平臺,Redi s服務平臺根據新加入消息隊列中的客戶任務調用處理進程,處理進程對客戶任務進行清洗并輸出第一業務結果存儲至Redi s緩存存儲器中;Redis服務平臺的實時計算模塊偵測Redis緩存存儲器中存在新的第一業務結果,實時計算模塊對第一業務結果進行計算并輸出第二業務結果。
技術要點比較:本發明與該專利文獻相比,技術結構差異明顯,在同樣基于zookeeper的服務目的不同,該發明用于消息隊列客戶任務,本發明中則用于執行定時任務的單節點容錯。本發明沒有使用Redis,該專利文獻也沒有定時調度策略。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種分布式的數據分析任務調度系統。本發明要解決的技術問題是如何充分利用R平臺的數據分析強、靈活的優點,利用大數據環境下分布式資源管理服務,構建一個基于資源的分布式的數據分析任務調度系統,方便在工業分析過程中的數據分析人員使用是本發明的關注點。
根據本發明提供的一種分布式的數據分析任務調度系統,包括:
分布式數據存儲服務模塊:通過非關系型數據庫進行存儲,通過分布式搜索引擎進行數據的檢索,提供分布式數據存儲服務
基于資源的分布式任務調度引擎模塊:進行資源管理、資源控制、任務調度與跟蹤,提供任務調度服務;
分布式消息隊列模塊:通過分布式消息隊列實現數據的發布與訂閱功能;
分布式應用程序協調服務模塊:對單節點上的自動執行引擎任務的后續執行進行容錯;
自動執行引擎模塊:對數據分析任務做分析。
優選地,非關系型數據庫采用數據庫HBase;分布式搜索引擎采用搜索應用服務器Solr。
優選地,分布式數據存儲服務模塊是分析任務的數據來源。
優選地,分布式數據存儲服務模塊是任務文件和數據分析結果的存儲載體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海寶信軟件股份有限公司,未經上海寶信軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610712300.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





