[發明專利]一種基于ApacheSqoop的從關系型數據庫到Kafka的數據導入裝置及方法在審
| 申請號: | 201710619621.1 | 申請日: | 2017-07-26 |
| 公開(公告)號: | CN107609008A | 公開(公告)日: | 2018-01-19 |
| 發明(設計)人: | 尚平平 | 申請(專利權)人: | 鄭州云海信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南舜源專利事務所有限公司37205 | 代理人: | 張亮 |
| 地址: | 450000 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 apachesqoop 關系 數據庫 kafka 數據 導入 裝置 方法 | ||
技術領域
本發明涉及計算機軟件應用技術領域,具體涉及一種針對大量數據的快速導入處理技術。
背景技術
在社會快速發展的今天,各行各業每天都會產生大量的數據,數據來源囊括了我們周圍可以捕獲的任何類型數據,網站、社交媒體、交易型商業數據以及其它商業環境中創建的數據。在這種環境下,Apache框架Hadoop應運而生,它是一個越來越通用的分布式計算環境,主要用來處理大數據,用戶可以在不了解分布式底層細節的情況下,開發分布式程序,充分利用集群的威力進行高速運算和存儲。隨著云提供商利用這個框架,更多的用戶將數據集在Hadoop和傳統數據庫之間轉移,能夠幫助數據傳輸的工具變得更加重要。
Apache Sqoop就是這樣一款工具,可以在Hadoop和關系型數據庫之間轉移大量數據,主要用于在Hadoop與傳統數據庫間進行數據的傳遞,可以將一個關系型數據庫中的數據導入到HDFS、Hive、Hbase中,也可將HDFS的數據導入到關系型數據庫中。
Kafka是一種高吞吐量的分布式發布訂閱消息系統?,F實場景有時也需要將數據從數據庫發送到kafka中。數據從關系型數據庫導入到Kafka有多種方法,其中最直接的方法就是利用數據庫驅動程序和Kafka API自己編寫程序進行導入。Sqoop作為數據傳遞工具,暫時沒有支持該場景。
故,針對上述現有技術中將數據從關系型數據庫到kafka導入存在的不便捷、不高效的問題,實有必要進行開發研究,以提供一種方案,能夠實現數據從關系型數據庫到Kafka的高效便捷的導入。
發明內容
為解決上述技術問題,本發明提供是一種基于Apache Sqoop的從關系型數據庫到Kafka的數據導入方案,具體如下:
第一方面,本發明提供一種基于Apache Sqoop的從關系型數據庫到Kafka 的數據導入裝置,其特征在于,包括分析模塊、參數注入模塊、輸入模塊、校驗模塊、任務判斷模塊、數據切分模塊、映射模塊、存儲模塊,其中:
分析模塊,用于分析從關系型數據庫導入數據到Kafka需要的參數,參數包括用于指定Kafka服務器地址的第一參數和用于指定數據接收topic的第二參數;
參數注入模塊,用于根據分析模塊的分析結果進行第一參數和第二參數的注入;
輸入模塊,用于用戶對參數進行輸入;
校驗模塊,用于對用戶輸入的第一參數和第二參數進行校驗;
任務判斷模塊,用于根據用戶的輸入判斷是否是導入Kafka的任務;
數據切分模塊,用于Sqoop將從關系型數據庫中讀出的數據進行切分;
映射模塊,用于從數據切分模塊逐行提取數據,并將數據發送到第一參數指定的地址;
存儲模塊,Kafka將接收的消息存儲到“topic”相應的目錄。
進一步的,Kafka服務器地址為消息推送目的地址。
進一步的,任務判斷模塊根據用戶輸入的參數,檢測輸入的參數是否包含第一參數和第二參數來決定是否是導入Kafka的任務。
進一步的,通過對從數據切分模塊提取的數據進行處理并將其發送到Kafka 進行并行運算,來保證映射模塊的運行,數據處理包括增加數據產生的時間戳、來自的數據庫名以及表名信息。
第二方面,本發明提供一種基于Apache Sqoop的從關系型數據庫到Kafka 的數據導入方法,其特征在于,包括:
SS1:分析從關系型數據庫導入數據到Kafka需要的參數,參數包括用于指定Kafka服務器地址的第一參數和用于指定數據接收topic的第二參數;
SS2:根據分析模塊的分析結果進行第一參數和第二參數的注入;
SS3:用戶對參數進行輸入;
SS4:對用戶輸入的第一參數和第二參數進行校驗;
SS5:根據用戶的輸入判斷是否是導入Kafka的任務;
SS6:Sqoop將從關系型數據庫中讀出的數據進行切分;
SS7:逐行提取數據,并將數據發送到第一參數指定的地址;
SS8:Kafka將接收的消息存儲到“topic”相應的目錄。
進一步的,步驟SS1中Kafka服務器地址為消息推送目的地址。
進一步的,步驟SS5根據用戶輸入的參數,檢測輸入的參數是否包含第一參數和第二參數來決定是否是導入Kafka的任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州云海信息技術有限公司,未經鄭州云海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710619621.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:食品安全提示系統
- 下一篇:文本情感分析方法、裝置、存儲介質和計算機設備





