[發明專利]一種數據采集同步系統與同步方法在審
| 申請號: | 202110771203.0 | 申請日: | 2021-07-08 |
| 公開(公告)號: | CN113505173A | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 許士松;朱坤奎 | 申請(專利權)人: | 上海卓鋼鏈科技有限公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06F16/22;G06F16/215;G06F16/28 |
| 代理公司: | 上海中外企專利代理事務所(特殊普通合伙) 31387 | 代理人: | 孫益青 |
| 地址: | 201306 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 采集 同步 系統 方法 | ||
本發明公開了一種數據采集同步系統與同步方法,同步系統包含用戶端、服務端,服務端內置有數據庫、審核模塊、采集同步模塊;用戶端用于生成傳輸至服務端的全量采集同步請求,全量采集同步請求內存儲有采集數據;服務端將全量采集同步請求分別傳輸至數據庫、審核模塊;審核模塊用于接收全量采集同步請求并審核并生成傳輸至采集同步模塊、數據庫、用戶端的審核數據,審核數據內存儲有采集數據;數據庫用于接收并存儲全量采集同步請求、審核數據;采集同步模塊依據審核數據進行采集數據的同步;同步方法包含步驟D1?D6。
技術領域
本發明涉及數據采集同步領域,具體涉及一種數據采集同步系統與同步方法。
背景技術
互聯網的快速發展,讓很多企業從線下轉變到線上,同時,也讓企業積累了大量的數據,這些數據大都保存在企業的各個業務系統數據庫中,如果要使用這些數據,需要去這些業務數據庫中將數據抽取出來,然后對數據進行加工處理,完畢之后這些數據就丟棄了,如果再次使用需要去業務數據庫中再次抽取;傳統的數據采集方法有很多種,例如各個數據使用方在業務低峰期直接抽取所需的各種數據,這種抽取方式簡單直接,但是存在重復抽取,效率低下,且數據需要在低峰時期抽取,數據不能夠實時的使用;
此外還有數據采集工具,目前比較企業中使用比較廣泛的采集框架主要有針對業務數據庫的采集框架Sqoop和DataX,以及針對日志文件等的采集框架有Flume、Filebeat、Logstash等;
Sqoop是Java技術棧的一款數據采集框架,依賴于MapReduce作業實現數據才加,比較耗費資源,且采集頻率不能夠太高,否則有可能導致業務數據庫崩潰的可能,因此對于實時性要求比較高的數據采集需求就不能夠滿足要求了;
Datax是阿里開源的一款離線數據同步工具,能夠實現各種異構數據源之間高效的數據同步功能,其本身是python技術棧,目前開源版本不支持分布式,只可以單機部署,因此在性能上就會吃虧,其次DataX也有和Sqoop同樣的缺點,就是只能離線采集,無法進行高頻數據采集;
這些產品將業務數據統一的抽取到數倉平臺,雖然減少了重復抽取,但是sqoop和datax采集數據存在時效性差的問題,一般都是T+1日的時效性,最快也就是小時級別的采集,且抽取頻率過快的話回到業務數據庫癱瘓,導致生產事故的發生;
還有一種是基于時間戳或者trigger的方式獲取增量數據的變更,這種方式能夠較大限度的降低采集數據的數量,但是對業務的侵入性比較大,需要trigger配合,在一定程度上帶來了性能損失;
Flume是針對日志文件類型的數據進行采集的一款框架,他屬于hadoop生態的一個組件,依賴于hadoop生態,不能隨意的部署進行數據采集,其次比較耗費資源,使用起來需要配置很多source/channel/sink三個組件,比較麻煩;
Filebeat是ELK生態系統中的一個小組件,它沒有任何依賴,是一款輕量級,占用資源少,入侵性小的數據采集框架,但是正是由于是輕量級的,導致其功能相對單一,只能進行簡單的文件監控采集,不支持復雜的邏輯操作;
Logstash也是ELK生態系統中的一個組件,但是他的功能相對比較強大,支持多種數據源,但是比較致命的問題就是性能和資源消耗問題,默認占用堆內存是1G;
總的來說,這些數據采集方案都不能說是比較好的,經過了解和考慮了不同數據的實現方式后,要想同時解決數據一致性和實時性,比較合理的方法應該是基于日志的解決方案,同時能夠提供消息訂閱的方式給下游系統使用。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海卓鋼鏈科技有限公司,未經上海卓鋼鏈科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110771203.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種提升傳輸線瞬態仿真收斂性的方法
- 下一篇:一種寵物飼料及其加工工藝
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





