[發明專利]一種數據處理方法、系統及服務器在審
| 申請號: | 201910542637.6 | 申請日: | 2019-06-21 |
| 公開(公告)號: | CN110471896A | 公開(公告)日: | 2019-11-19 |
| 發明(設計)人: | 王樂維;努力曼·阿布拉;周毅 | 申請(專利權)人: | 深圳中琛源科技股份有限公司 |
| 主分類號: | G06F16/182 | 分類號: | G06F16/182;G06F16/22;G06F16/28;G06F16/25 |
| 代理公司: | 44288 廣州市越秀區哲力專利商標事務所(普通合伙) | 代理人: | 齊則琳;張雷<國際申請>=<國際公布>= |
| 地址: | 518000 廣東省深圳市南山區粵海街道高*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據流 分區標識 記錄信息 字段信息 流傳輸 數據庫 讀取 數據處理系統 數據傳輸效率 發送 數據表信息 配置信息 數據處理 表標識 服務器 分區 客戶 創建 | ||
本發明公開了一種數據處理方法,包括:獲取流傳輸平臺發送的數據流,其中,數據流由客戶端的數據庫中的原始數據表信息生成并發送至流傳輸平臺;根據配置信息和字段信息創建與表標識一一對應的目標數據表,根據字段信息識別出每條記錄信息的分區標識;根據分區標識將記錄信息讀取至對應的目標數據表中對應的分區中。本發明還公開一種數據處理系統及服務器,本發明可以實現數據庫中的多表導入,且數據傳輸效率高。
技術領域
本發明涉及數據處理領域,尤其涉及一種數據處理方法、系統及服務器。
背景技術
Sqoop是一個用來將關系型數據庫和Hadoop中的數據進行相互轉移的工具,可以將一個關系型數據庫(例如MYSQL、Oracle)中的數據導入到Hadoop(例如HDFS、Hive、HBase)中,也可以將Hadoop(例如HDFS、Hive、HBase)中的數據導入到關系型數據庫(例如MYSQL、Oracle)中。
目前從數據庫導入到Hive的主要技術是通過Sqoop框架導入,但是Sqoop導入到Hive只能單表導入,多表導入的功能還不支持,如需要多表導入,只能通過每個表配置一個Sqoop配置文件然后才能通過Sqoop導入到hive。一個系統中的數據庫表有很多,如果每個表需要配置一個Sqoop,那么會耗費很長的時間來配置Sqoop,影響數據傳輸的效率。
發明內容
為了克服現有技術中多表導入的方式影響數據傳輸效率的問題,本發明的目的在于提供一種數據處理方法、系統及服務器。
為實現上述目的,本發明提供一種數據處理方法,包括:
獲取流傳輸平臺發送的數據流,其中,所述數據流由客戶端的數據庫中的原始數據表信息生成并發送至所述流傳輸平臺,所述原始數據表信息包括數據庫的配置信息、原始數據表的表標識、字段信息和記錄信息,所述數據庫包括若干原始數據表和所述表標識,所述原始數據表包括若干條記錄信息,每條所述記錄信息包括與所述字段信息一一對應的數據記錄;
根據所述配置信息和所述字段信息創建與所述表標識一一對應的目標數據表,其中,所述目標數據表包括若干分區;
根據所述字段信息識別出每條所述記錄信息的分區標識;
根據所述分區標識將所述記錄信息讀取至對應的目標數據表中對應的分區中。
進一步地,所述根據所述配置信息和所述字段信息創建與所述表標識一一對應的目標數據表之前,所述方法還包括:
判斷是否存在與所述表標識對應的目標數據表;
若不存在,則根據所述配置信息和所述字段信息創建與所述表標識一一對應的目標數據表。
進一步地,所述根據所述字段信息識別出每條所述記錄信息的分區標識,具體包括:
讀取所述字段信息中的日期字段;
將每條所述記錄信息中與所述日期字段對應的數據記錄作為所述分區標識。
進一步地,所述將每條所述記錄信息中與所述日期字段對應的數據記錄作為所述分區標識,具體包括:
識別出每條所述記錄信息中與所述日期字段對應的數據記錄;
將與當前日期最接近的數據記錄作為所述分區標識。
進一步地,所述方法還包括:
判斷是否獲取到所述數據流;
若未獲取到所述數據流,在預設時間間隔后重新讀取數據流;
若獲取到所述數據流,依次將所述記錄信息讀取至對應的目標數據表中對應的分區中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳中琛源科技股份有限公司,未經深圳中琛源科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910542637.6/2.html,轉載請聲明來源鉆瓜專利網。





