[發(fā)明專利]一種基于簡單配置方式的數(shù)據(jù)抽取方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011344134.7 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112307108A | 公開(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計)人: | 李飛;范文斌;王亞平;蔣保自;劉帆 | 申請(專利權(quán))人: | 科大國創(chuàng)云網(wǎng)科技有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F9/451;G06F16/28 |
| 代理公司: | 合肥昊晟德專利代理事務(wù)所(普通合伙) 34153 | 代理人: | 王林 |
| 地址: | 230088 安*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 簡單 配置 方式 數(shù)據(jù) 抽取 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于簡單配置方式的數(shù)據(jù)抽取方法及系統(tǒng),屬于計算機(jī)軟件技術(shù)領(lǐng)域,包括以下步驟:S1:同步數(shù)據(jù)配置;S2:連接參數(shù)校驗;S3:同步調(diào)度引擎執(zhí)行數(shù)據(jù)同步任務(wù);S4:持久化同步日志。本發(fā)明可以大幅度減低Mysql數(shù)據(jù)同步到ES的操作門檻及難度,通過可視化界面管理,同時也減低了對不同數(shù)據(jù)源的管理難度,簡化了操作復(fù)雜度,將大量的用戶操作步驟進(jìn)行了隱藏,顯著提升了用戶體驗,值得被推廣使用。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)軟件技術(shù)領(lǐng)域,具體涉及一種基于簡單配置方式的數(shù)據(jù)抽取方法及系統(tǒng)。
背景技術(shù)
現(xiàn)有的數(shù)據(jù)抽取通常是通過ETL工具Kettle從MySql中進(jìn)行數(shù)據(jù)的抽取、解析并轉(zhuǎn)換,然后再將數(shù)據(jù)裝載到Elasticsearch中,現(xiàn)有的數(shù)據(jù)抽取流程示意圖如圖1所示。
在通過Kettle進(jìn)行數(shù)據(jù)抽取時,需安裝Kettle客戶端工具,然后使用工具,在客戶端界面手動操作,創(chuàng)建一個轉(zhuǎn)換和作業(yè),再去編排一個數(shù)據(jù)抽取流程,界面操作較為繁瑣,且一旦出錯,不易排查,使用體驗較差,同時當(dāng)投入生產(chǎn)環(huán)境使用時,由于生產(chǎn)環(huán)境數(shù)據(jù)量較大,Kettle客戶端動輒用上百個工作job需要管理,這時還使用Kettle客戶端管理就十分困難了。為此,提出一種基于簡單配置方式的數(shù)據(jù)抽取方法及系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于:如何解決原本基于Kettle的數(shù)據(jù)抽取過程存在的一系列復(fù)雜配置以及后期海量數(shù)據(jù)量難以管理的問題,提供了一種基于簡單配置方式的數(shù)據(jù)抽取方法。
本發(fā)明是通過以下技術(shù)方案解決上述技術(shù)問題的,本發(fā)明包括以下步驟:
S1:同步數(shù)據(jù)配置
在同步數(shù)據(jù)配置界面,配置源數(shù)據(jù)庫的連接信息、需要同步到ES的數(shù)據(jù)表以及字段信息;
S2:連接參數(shù)校驗
在MySql數(shù)據(jù)配置界面,輸入同步庫的連接地址以及連接參數(shù),完成后進(jìn)行連接測試,前臺將用戶輸入的請求地址和參數(shù)發(fā)往后臺進(jìn)行校驗;后臺獲取連接地址后,使用JDBC驅(qū)動類獲取連接,得到返回結(jié)果后,判斷連接對象實(shí)例是否為空,不為空則用戶提供的信息能夠連接到源數(shù)據(jù)庫,參數(shù)校驗成功,否則用戶提供的源數(shù)據(jù)庫連接參數(shù)有誤,無法連接;
S3:同步調(diào)度引擎執(zhí)行數(shù)據(jù)同步任務(wù)
參數(shù)配置完成后,將向后臺發(fā)送請求,后臺執(zhí)行同步調(diào)度引擎,同步調(diào)度引擎收到同步請求后,執(zhí)行數(shù)據(jù)同步操作;
S4:持久化同步日志
數(shù)據(jù)抽取完成后,將當(dāng)前抽取數(shù)據(jù)過程產(chǎn)生的日志持久化,供用戶在抽取失敗后查看相應(yīng)的失敗日志排查問題。
更進(jìn)一步地,在所述步驟S2中,同步庫的連接地址參數(shù)包括IP、端口、用戶名、密碼,連接參數(shù)包括useSSL、characterEncoding、useUnicode、allowMultiQueries。
更進(jìn)一步地,在所述步驟S3中,同步調(diào)度引擎執(zhí)行數(shù)據(jù)同步任務(wù)的具體工作過程如下:
S31:調(diào)用KettleEnvironment.init()方法初始化Kettle環(huán)境;
S32:讀取默認(rèn)的轉(zhuǎn)換時間格式模板,統(tǒng)一MySql和Elasticsearch中的時間格式,使兩者的時間格式保持一致;
S33:解析MySql連接信息,包含數(shù)據(jù)庫地址和庫表信息,并讀取數(shù)據(jù)到Kettle的DatabaseMeta數(shù)據(jù)庫元數(shù)據(jù)和StepMeta步驟元數(shù)據(jù)中;
S34:解析Elasticsearch地址,并使用MySql的數(shù)據(jù)名和表名,向Elasticsearch的RestClient API發(fā)送創(chuàng)建索引請求;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于科大國創(chuàng)云網(wǎng)科技有限公司,未經(jīng)科大國創(chuàng)云網(wǎng)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011344134.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





