[發明專利]數據采集交換引擎有效
| 申請號: | 201611155430.6 | 申請日: | 2016-12-14 |
| 公開(公告)號: | CN106599197B | 公開(公告)日: | 2020-04-07 |
| 發明(設計)人: | 王志安;張偉;田海均;譚紅濤;胡均;謝佳 | 申請(專利權)人: | 深圳天源迪科信息技術股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25 |
| 代理公司: | 深圳市德力知識產權代理事務所 44265 | 代理人: | 林才桂 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 采集 交換 引擎 | ||
本發明提供一種數據采集交換引擎,其根據數據采集交換的特點設置配置參數,用戶根據需求在控制中心填寫配置參數,控制中心即可根據預設的編譯規則自動將用戶填寫的配置參數編譯成配置程序,再依據配置程序選定數據交換工具以及安裝有該數據交換工具的執行器,并通過通訊與協調模塊將配置程序從控制中心發送到選定的執行器,再由所述執行器將配置程序編譯成選定的數據交換工具能夠識別的執行程序,利用該執行程序驅動選定的數據交換工具進行數據采集交換,將來源數據模型中數據的采集交換到目標數據模型中,通過智能選擇數據交換工具,自動完成數據采集交換,能夠簡化用戶操作,降低數據采集交換難度,提升數據采集交換效率。
技術領域
本發明涉及大數據技術領域,尤其涉及一種數據采集交換引擎。
背景技術
信息科技經過60多年的發展,已滲透到各行業的方方面面。政治、經濟活動中很大一部分的活動都與數據的創造、采集、傳輸和使用相關,隨著網絡應用日益深化,大數據應用的影響日益擴大。根據機構測算,全世界數據總量以每兩年翻一番的速度遞增。換句話說,最近兩年產生的數據總量相當于人類有史以來所有數據量的總和。在這個背景下,從公司戰略到產業生態,從學術研究到生產實踐,從城鎮管理乃至國家治理,都將發生本質的變化。
大數據指的是大小超出常規的數據工具獲取、存儲、管理和分析能力的數據集,并不是說一定要超過特定TB值得數據集才能算是大數據。國際數據公司(IDC)從四個特征定義大數據,即海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)和巨大的數據價值(Value)。大數據幾乎滲透到國民經濟的所有部門,應用領域涉及信息服務、智慧城市、金融、制造業、國家安全和科學研究等。
隨時時代的發展,大數據數據處理和存儲引擎不斷增多,一種大數據引擎往往滿足于某一場景的需求,比如hdfs做分布式文件存儲,hive做批處理,hbase做清單查詢,redis做內存數據庫等。每種引擎都有缺點,比如:hive不適合在線分析查詢,redis不適合做大數據量的存儲,hbase不適合做批處理分析,大數據平臺往往是各種引擎組合在一起,互取所長,共同完成一個大數據處理系統。這樣的背景下,數據往往會冗余存儲于hive、hbase、redis、ftp、hdfs、sftp、elasticsearch、oracle、以及mysql等各個不同數據環境中,因此,各個引擎之間數據的采集交換也就顯得尤為重要。
目前,主流的數據采集交換工具有datax、sqoop、flume以及embulk等,其中,DataX是一個在異構的數據庫/文件系統之間高速交換數據的工具,實現了在任意的數據處理系統(RDBMS/Hdfs/Local filesystem)之間的數據交換,Sqoop是協助用戶在RDBMS與Hadoop之間進行高效的大數據交流的數據交換工具,用戶可以在Sqoop的幫助下,可以輕松地把關系型數據庫的數據導入到Hadoop與其相關的系統(如HBase和Hive)中,同時也可以把數據從Hadoop系統里抽取并導出到關系型數據庫里。Flume是一個能夠將不同數據源的海量日志數據進行高效收集、聚合和移動,最后存儲到一個中心化數據存儲系統中的數據交換工具。Embulk是一個開源的批量數據交換工具,用來在不同數據庫、存儲設備、文件格式以及云服務間轉移數據。
上述的各種數據交換工具的使用方法各有不同,擅長的數據交換場景也各有不同,Sqoop采用shell命令方式,datax采用配置文件,flume采用conf配置文件,原理深奧,各工具學習成本較高,如遇到問題,需了解其底層原理進行調試,如使用sqoop,需了解大數據相關技術,對企業一般實施人員,技術要求過高。同時,對于一種交換場景,比如oracle交換數據到hive,sqoop、datax以及embulk都可以支持這種交換,此時,那什么時候該用什么工具,用什么引擎最合適最高效,經驗不豐富的技術人員往往一時難以判斷。而且開源交換引擎支持的場景過于重復,很多場景還未覆蓋到。因此需要一種既能使用開源交換引擎的能力,又能補充交換能力,并且具有統一交換配置的工具來解決上述問題。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳天源迪科信息技術股份有限公司,未經深圳天源迪科信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611155430.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人工智能對話方法及系統
- 下一篇:一種多級聯結循環神經網絡的圖像描述方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





