[發明專利]數據處理方法、裝置及存儲介質在審
| 申請號: | 202110996879.X | 申請日: | 2021-08-27 |
| 公開(公告)號: | CN113741904A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 周波;楊旋;張君;王哲;蔡浴泓 | 申請(專利權)人: | 浙江惠瀜網絡科技有限公司 |
| 主分類號: | G06F8/51 | 分類號: | G06F8/51 |
| 代理公司: | 北京知果之信知識產權代理有限公司 11541 | 代理人: | 卜榮麗;李志剛 |
| 地址: | 311200 浙江省杭州市蕭山區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 存儲 介質 | ||
本發明提供一種數據處理方法、裝置及存儲介質,包括:從數據源中獲取原始數據;定義所述原始數據和目標數據的映射關系;基于所述映射關系生成轉換規則;根據預設轉換工具和所述轉換規則將所述原始數據轉換為目標數據。本發明提供的技術方案,只需要定義所述原始數據和目標數據的映射關系,就可以進行數據映射或者數據清洗,不需要學習相關編程技術,學習成本低;根據預先生成的轉換規則通過Jolt工具可以直接端對端進行數據映射或者數據清洗,不會因為數據源或者需求變更帶來影響,無需修改代碼。
技術領域
本申請涉及數據處理領域,具體而言,涉及一種數據處理方法、裝置及存儲介質、電子設備。
背景技術
在傳統數據清洗、數據映射當中通常采用Hive SQL、Spark SQL、Spark Core的方式通過編碼對數據進行清洗、映射。
使用Spark、Hive進行數據清洗學習門檻較高且依賴的jar包較多、較為笨重。采用hard code的方式進行數據清洗、數據映射,若有新格式的數據源或者數據源有變動時就需要修改代碼,可擴展性較差。
因此,亟需一種可以同時解決數據清洗、映射學習門檻高和拓展性差的問題的數據處理方法、裝置及存儲介質。
發明內容
本發明實施例提供一種數據處理方法、裝置及存儲介質,用以解決現有技術中數據清洗學習門檻較高且較為笨重,以及可擴展性較差的問題。
本發明實施例的第一方面,提供一種數據處理方法,包括:
從數據源中獲取原始數據;
定義所述原始數據和目標數據的映射關系;
基于所述映射關系生成轉換規則;
根據預設轉換工具和所述轉換規則將所述原始數據轉換為目標數據。
可選地,在第一方面的一種可能實現方式中,所述從數據源中獲取原始數據,包括:
將一個原始數據或者多個原始數據的組合作為基礎數據,所述基礎數據用于定義所述原始數據和目標數據的映射關系。
可選地,在第一方面的一種可能實現方式中,所述定義所述原始數據和目標數據的映射關系,包括:
采用手動制定映射方式或者頁面拖拽方式將每條原始數據與目標數據中的每個字段進行關聯,以產生映射關系。
可選地,在第一方面的一種可能實現方式中,所述數據源包括:關系型數據庫、非關系型數據庫。
可選地,在第一方面的一種可能實現方式中,所述從數據源中獲取原始數據,包括:在多個原始數據進行組合的過程中,預先對不同類型的原始數據分別設置相應的權重值,并根據權重值的大小關系將原始數據進行優先級的排序。
可選地,在第一方面,提供了另一種數據處理方法,包括:
從數據源中獲取原始數據;
定義協議標準,并將所述協議保存至數據庫中;
從數據庫中查詢協議并通過代碼方式生成轉換規則;
根據預設轉換工具和所述轉換規則將所述原始數據轉換為目標數據。
本發明實施例的第二方面,提供一種數據處理裝置,包括:
獲取模塊,用于從數據源中獲取原始數據;
定義模塊,用于定義所述原始數據和目標數據的映射關系;
生成模塊,用于基于所述映射關系生成轉換規則;
轉換模塊,用于根據預設轉換工具和所述轉換規則將所述原始數據轉換為目標數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江惠瀜網絡科技有限公司,未經浙江惠瀜網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110996879.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自復位的多層圓環彈簧摩擦阻尼器
- 下一篇:一種船舶控制系統





