[發(fā)明專利]大數(shù)據(jù)處理框架源數(shù)據(jù)的統(tǒng)一訪問通道的實現(xiàn)方法在審
| 申請?zhí)枺?/td> | 201810029082.0 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN108256046A | 公開(公告)日: | 2018-07-06 |
| 發(fā)明(設計)人: | 卞信銓 | 申請(專利權)人: | 福建星瑞格軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/08 |
| 代理公司: | 福州市鼓樓區(qū)京華專利事務所(普通合伙) 35212 | 代理人: | 王美花 |
| 地址: | 350000 福建省福州市鼓樓區(qū)*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 訪問通道 數(shù)據(jù)處理框架 源數(shù)據(jù) 任務執(zhí)行模塊 數(shù)據(jù)獲取模塊 統(tǒng)一 訪問源數(shù)據(jù) 存儲介質 匹配數(shù)據(jù) 數(shù)據(jù)格式 大數(shù)據(jù) 獲取源 請求源 數(shù)據(jù)源 源通道 分類 訪問 | ||
本發(fā)明提供一種大數(shù)據(jù)處理框架源數(shù)據(jù)的統(tǒng)一訪問通道的實現(xiàn)方法,其是在任務執(zhí)行模塊中對接了多種大數(shù)據(jù)處理框架;并在數(shù)據(jù)獲取模塊中設置一條統(tǒng)一訪問通道,所述統(tǒng)一訪問通道對接多種數(shù)據(jù)源通道;所述任務執(zhí)行模塊通過大數(shù)據(jù)處理框架接收任務,然后向所述數(shù)據(jù)獲取模塊請求源數(shù)據(jù);所述數(shù)據(jù)獲取模塊收到請求時,由所述統(tǒng)一訪問通道根據(jù)所匹配數(shù)據(jù)源通道訪問源數(shù)據(jù)存儲介質,獲取源數(shù)據(jù)供所述任務執(zhí)行模塊執(zhí)行任務使用。本發(fā)明將源數(shù)據(jù)訪問按照數(shù)據(jù)格式進行分類,提供統(tǒng)一的源數(shù)據(jù)訪問通道供大數(shù)據(jù)平臺共用,提高了效率。
技術領域
本發(fā)明涉及大數(shù)據(jù)的訪問方法,特別涉及大數(shù)據(jù)處理框架源數(shù)據(jù)的統(tǒng)一訪問通道的實現(xiàn)方法。
背景技術
大數(shù)據(jù)處理負責對大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)進行計算(管理和處理)。源數(shù)據(jù)包括從持久存儲中讀取的數(shù)據(jù)或通過消息隊列等方式接入到系統(tǒng)中的數(shù)據(jù),而計算則是從數(shù)據(jù)中提取信息的過程。面對DB、SQL、NOSQL、MPP、Search、Streaming、Graph、MachineLearning、ETL等不同的業(yè)務及不同場景,現(xiàn)在主流的大數(shù)據(jù)處理框架有Spark、Flink、Hive、Pig、GraphLab、Cassandra、MongoDB、Impala、Greenplum、HAWQ、Storm、ElasticSearch、Solr、Hbase、MySQL等,每個大數(shù)據(jù)處理框架也可以作為其他處理框架的數(shù)據(jù)源來提供數(shù)據(jù),每種大數(shù)據(jù)處理框架背后都支持多種的數(shù)據(jù)源存儲方式及訪問方式。以Spark為例支持讀取存儲于HDFS、本地文件、S3、Hive、Hbase、Tarchyon、RDBMS等存儲介質中,這里可以將存儲介質分類為傳統(tǒng)的關系型數(shù)據(jù)、NoSQL數(shù)據(jù)、分布式存儲數(shù)據(jù)、內存分布式存儲數(shù)據(jù)、云平臺數(shù)據(jù)、其他大數(shù)據(jù)平臺框架數(shù)據(jù)。每種存儲方式又可以分為不同的數(shù)據(jù)存儲格式,通用的數(shù)據(jù)存儲格式就有Json、SequenceFile、TextFile、Parquet、CSV、OrcFile、Avro等,還有每種存儲介質自己獨有的數(shù)據(jù)存儲格式,例如每種RDBMS,NoSQL都是不同的,統(tǒng)計下來常用的不下幾十種,在用的有一二百種,以上類型Spark既然支持讀取,同樣也是支持將數(shù)據(jù)寫入存儲,因為Spark也可以作為其他框架的數(shù)據(jù)源。那么在大數(shù)據(jù)平臺上一個大數(shù)據(jù)處理框架一次任務可能需要訪問多個數(shù)據(jù)源,要想支持以上所有的數(shù)據(jù)源的訪問,大數(shù)據(jù)平臺上的數(shù)據(jù)源訪問開發(fā)就是個浩大的工程,現(xiàn)在比較常用的方式是在一個企業(yè)里面限制固定使用幾種的數(shù)據(jù)存儲方式及數(shù)據(jù)存儲格式,這種方式解放了一些開發(fā)壓力,不過應用程序系統(tǒng)的性能及效率也大打折扣,還有一種方式是通過將數(shù)據(jù)ETL到設定的存儲方式與存儲格式上來,在進行業(yè)務計算,這種方式不但時效性上受到影響,多了一個環(huán)節(jié)復雜度也提高了,出問題的概率也提高了。
發(fā)明內容
本發(fā)明要解決的技術問題,在于提供一種大數(shù)據(jù)處理框架源數(shù)據(jù)的統(tǒng)一訪問通道的實現(xiàn)方法,將源數(shù)據(jù)訪問按照數(shù)據(jù)格式進行分類,提供統(tǒng)一的源數(shù)據(jù)訪問通道供大數(shù)據(jù)平臺共用,提高了效率。
本發(fā)明是這樣實現(xiàn)的:一種大數(shù)據(jù)處理框架源數(shù)據(jù)的統(tǒng)一訪問通道的實現(xiàn)方法,包括:
在任務執(zhí)行模塊中對接了多種大數(shù)據(jù)處理框架;并在數(shù)據(jù)獲取模塊中設置一條統(tǒng)一訪問通道,所述統(tǒng)一訪問通道對接多種數(shù)據(jù)源通道;
所述任務執(zhí)行模塊通過大數(shù)據(jù)處理框架接收任務,然后向所述數(shù)據(jù)獲取模塊請求源數(shù)據(jù);
所述數(shù)據(jù)獲取模塊收到請求時,由所述統(tǒng)一訪問通道根據(jù)所匹配數(shù)據(jù)源通道訪問源數(shù)據(jù)存儲介質,獲取源數(shù)據(jù)供所述任務執(zhí)行模塊執(zhí)行任務使用。
進一步的,所述大數(shù)據(jù)處理框架向所述數(shù)據(jù)獲取模塊請求源數(shù)據(jù)時,只需將具體要訪問的RDBMS服務器的IP、用戶名和密碼以及訪問的對象傳入所述統(tǒng)一訪問通道,由所述統(tǒng)一訪問通道根據(jù)所匹配數(shù)據(jù)源通道獲取源數(shù)據(jù)。
進一步的,傳入所述統(tǒng)一訪問通道的還包括訪問方式,若訪問方式為并行訪問,則所述統(tǒng)一訪問通道提供兩種訪問模式:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建星瑞格軟件有限公司,未經福建星瑞格軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810029082.0/2.html,轉載請聲明來源鉆瓜專利網。
- 在通信系統(tǒng)中處理數(shù)據(jù)的裝置和方法
- 一種數(shù)據(jù)處理方法和裝置
- 基于大數(shù)據(jù)的數(shù)據(jù)處理方法和裝置
- 一種利用數(shù)據(jù)結構控制的數(shù)據(jù)處理與數(shù)據(jù)分析框架
- 提升社交圈子數(shù)據(jù)處理性能的方法及裝置
- 基于邊緣計算的數(shù)據(jù)處理方法及系統(tǒng)
- 一種數(shù)據(jù)處理方法、裝置、設備及存儲介質
- 數(shù)據(jù)處理平臺的構建方法、裝置、電子設備和存儲介質
- 一種模板化的數(shù)據(jù)處理方法及裝置
- 業(yè)務數(shù)據(jù)處理方法、裝置及設備、程序生成方法及裝置
- 一種數(shù)據(jù)同步處理方法、裝置和單點登錄系統(tǒng)
- 一種異常數(shù)據(jù)處理方法和異常數(shù)據(jù)處理設備
- 數(shù)據(jù)同步方法和集群節(jié)點
- 數(shù)據(jù)同步方法和裝置
- 切換數(shù)據(jù)源的方法及系統(tǒng)
- 多數(shù)據(jù)源的數(shù)據(jù)遷移方法
- 數(shù)據(jù)源補充方法、裝置、計算機設備和存儲介質
- 一種數(shù)據(jù)源切換方法及系統(tǒng)
- 從不同數(shù)據(jù)源中獲取數(shù)據(jù)的方法、裝置及計算機設備
- 一種動態(tài)數(shù)據(jù)源查詢方法及裝置





