[發明專利]一種將數據同時導入多個Hadoop組件的方法有效
| 申請號: | 201710132272.0 | 申請日: | 2017-03-07 |
| 公開(公告)號: | CN106919697B | 公開(公告)日: | 2020-09-25 |
| 發明(設計)人: | 尚平平;臧勇真 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27 |
| 代理公司: | 濟南舜源專利事務所有限公司 37205 | 代理人: | 張亮 |
| 地址: | 250000 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 同時 導入 hadoop 組件 方法 | ||
本發明涉及一種將數據同時導入多個Hadoop組件的方法,其特征在于,包括以下步驟:步驟1:擴展Sqoop的import工具,增加到Kafka的導入服務;步驟2:根據數據庫導入各個組件的配置參數,編寫參數校驗程序;步驟3:擴展Sqoop的import工具,增加同時導出HDFS、Hive、Hbase、Kafka的服務;在Sqoop原有的連接數據庫并讀取數據的基礎上,增加了同時導出到多個組件的功能,通過一次讀取數據庫數據,同時啟動多個用戶指定的導出模塊,實現高效便捷的數據導入,一方面避免了為同一批數據寫多次導出任務,另一方面避免重復讀取相同的數據,提高了效率。
技術領域
本發明屬于大量數據的快速轉移處理技術領域,具體涉及一種將數據同時導入多個Hadoop組件的方法。
背景技術
在社會快速發展的今天,各行各業每天都會產生大量的數據,數據來源囊括了我們周圍可以捕獲的任何類型數據,網站、社交媒體、交易型商業數據以及其它商業環境中創建的數據。隨著云提供商利用這個框架,更多的用戶將數據集在Hadoop和傳統數據庫之間轉移,能夠幫助數據傳輸的工具變得更加重要。在這種環境下,Apache框架Hadoop應運而生,它是一個越來越通用的分布式計算環境,主要用來處理大數據。Apache Sqoop是一種數據轉移工具,主要用于在Hadoop與傳統數據庫間進行數據的傳遞,可以將一個關系型數據庫中的數據導進到HDFS、Hive、Hbase中,也可將HDFS的數據導進到關系型數據庫中。
Kafka是一種高吞吐量的分布式發布訂閱消息系統。有時需要將數據從關系型數據庫導入到Kafka,然而Sqoop作為一個數據轉移工具,沒有提供這方面的支持,同一批數據可能會被多項工作使用,而原本的Sqoop每次只支持一項任務,若想導出到多個Hadoop組件,需要單獨再寫命令,更重要的是要多次讀取同一批數據。此為現有技術的不足之處。
發明內容
本發明的目的在于,針對上述現有技術存在的缺陷,提供設計一種將數據同時導入多個Hadoop組件的方法,以解決上述技術問題。
為了達到上述目的,本發明提供的技術方案是:
一種將數據同時導入多個Hadoop組件的方法,其特征在于,包括以下步驟:
步驟1:擴展Sqoop的import工具,增加到Kafka的導入服務;
步驟2:根據數據庫導入各個組件的配置參數,編寫參數校驗程序;
步驟3:擴展Sqoop的import工具,增加同時導出到 HDFS、Hive、Hbase、Kafka的服務。
進一步的,步驟1的實現過程包括:修改Sqoop的BaseSqoopTool類代碼和ImportTool類代碼,設計向Kafka導入數據的MapReduce任務,定義向Kakfa導入數據時需要的參數。
進一步的,步驟2的實現過程包括:定義向各個組件導入數據時需要的參數,并增加檢測輸入參數、記錄輸入參數、對參數進行校驗的程序。
進一步的,步驟3的實現過程包括:用戶同時指定同時導出到多個Hadoop組件時,增加一個可選的命令參數,使得用戶可以一條指令同時指定導出到多個Hadoop組件所需的參數,根據用戶參數決定調用哪幾個組件的接口,用戶執行該條命令時,同時處理導出到各個目標組件所需的參數,然后從數據庫中讀取數據,并同時發送到多個目標組件。
向各個組件導入數據時需要的參數包括關系型數據庫JDBC連接字符串、JDBC驅動程序類、設置包含身份驗證密碼的文件路徑、數據庫訪問用戶、用于提供連接參數的可選屬性文件、Map函數相關參數、reduce函數相關參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710132272.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:SEO站點構建方法及SEO請求的響應方法
- 下一篇:藝術綜合查詢平臺和方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





