[發明專利]數據處理方法、裝置及存儲介質在審

申請號：	202110996879.X	申請日：	2021-08-27
公開（公告）號：	CN113741904A	公開（公告）日：	2021-12-03
發明（設計）人：	周波;楊旋;張君;王哲;蔡浴泓	申請（專利權）人：	浙江惠瀜網絡科技有限公司
主分類號：	G06F8/51	分類號：	G06F8/51
代理公司：	北京知果之信知識產權代理有限公司 11541	代理人：	卜榮麗;李志剛
地址：	311200 浙江省杭州市蕭山區***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	數據處理方法裝置存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種數據處理方法、裝置及存儲介質，包括：從數據源中獲取原始數據；定義所述原始數據和目標數據的映射關系；基于所述映射關系生成轉換規則；根據預設轉換工具和所述轉換規則將所述原始數據轉換為目標數據。本發明提供的技術方案，只需要定義所述原始數據和目標數據的映射關系，就可以進行數據映射或者數據清洗，不需要學習相關編程技術，學習成本低；根據預先生成的轉換規則通過Jolt工具可以直接端對端進行數據映射或者數據清洗，不會因為數據源或者需求變更帶來影響，無需修改代碼。

技術領域

本申請涉及數據處理領域，具體而言，涉及一種數據處理方法、裝置及存儲介質、電子設備。

背景技術

在傳統數據清洗、數據映射當中通常采用Hive SQL、Spark SQL、Spark Core的方式通過編碼對數據進行清洗、映射。

使用Spark、Hive進行數據清洗學習門檻較高且依賴的jar包較多、較為笨重。采用hard code的方式進行數據清洗、數據映射，若有新格式的數據源或者數據源有變動時就需要修改代碼，可擴展性較差。

因此，亟需一種可以同時解決數據清洗、映射學習門檻高和拓展性差的問題的數據處理方法、裝置及存儲介質。

發明內容

本發明實施例提供一種數據處理方法、裝置及存儲介質，用以解決現有技術中數據清洗學習門檻較高且較為笨重，以及可擴展性較差的問題。

本發明實施例的第一方面，提供一種數據處理方法，包括：

從數據源中獲取原始數據；

定義所述原始數據和目標數據的映射關系；

基于所述映射關系生成轉換規則；