[發明專利]ETL數據處理方法及系統、數據清洗方法及裝置在審
| 申請號: | 201710033549.4 | 申請日: | 2017-01-16 |
| 公開(公告)號: | CN108319609A | 公開(公告)日: | 2018-07-24 |
| 發明(設計)人: | 丁文超 | 申請(專利權)人: | 醫渡云(北京)技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 闞梓瑄;王衛忠 |
| 地址: | 100191 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 清洗 數據清洗 標識信息 數據處理 服務器 規則發送 調用 | ||
本公開是關于一種ETL數據處理方法及系統、數據清洗方法及裝置,該數據清洗方法包括:對接收到的多個清洗函數進行注冊,以獲得各所述清洗函數的標識信息;針對各待清洗數據的清洗需求,分別利用一個或多個所述標識信息生成對應的清洗規則;以及將所述清洗規則發送至多個服務器,使各所述服務器根據所述清洗規則中的所述標識信息調用對應的一個或多個所述清洗函數,以對所述待清洗數據進行清洗。本公開提高了數據清洗的效率。
技術領域
本公開涉及數據處理技術領域,具體而言,涉及一種ETL數據處理方法、ETL數據處理系統、數據清洗方法以及數據清洗裝置。
背景技術
隨著信息產業的不斷發展,如何對海量的數據進行處理已經成為計算機系統不得不面對的考驗。在數據處理過程中,為了確保數據可靠無誤,需要對數據進行清洗。
ETL(Extract-Transform-Load)用于描述將數據從來源端(例如,原始業務系統)經過提取、轉換、加載至目的端(例如,數據倉庫)的過程。在一些應用中,對數據進行轉換即是對數據進行清洗,清洗數據的目的在于從數據中檢測并去除錯誤及不一致的數據部分,從而改善數據質量。隨著計算技術的發展,一些應用的處理過程可能涉及大量的數據,對這些數據進行清洗會耗費相當長的時間。此外,數據清洗通常需要業務人員分析業務需求,同時還需要清洗算法工程師根據分析得到的業務需求撰寫算法邏輯,以對待清洗數據進行轉換。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的目的在于提供一種ETL數據處理方法、ETL數據處理系統、數據清洗方法以及數據清洗裝置,進而至少在一定程度上克服由于相關技術的限制和缺陷而導致的一個或者多個問題。
根據本公開的一個方面,提供一種數據清洗方法,應用于ETL數據處理過程,所述數據清洗方法包括:
對接收到的多個清洗函數進行注冊,以獲得各所述清洗函數的標識信息;
針對各待清洗數據的清洗需求,分別利用一個或多個所述標識信息生成對應的清洗規則;以及
將所述清洗規則發送至多個服務器,使各所述服務器根據所述清洗規則中的所述標識信息調用對應的一個或多個所述清洗函數,以對所述待清洗數據進行清洗。
在本公開的一種示例性實施例中,各所述服務器中的字段不完全相同。
在本公開的一種示例性實施例中,所述清洗函數對應的操作包括空值處理、規范數據格式、拆分數據以及數據替換中的一種或多種。
在本公開的一種示例性實施例中,采用JSON格式配置所述清洗規則。
根據本公開的一個方面,提供一種ETL數據處理方法,包括:
從原始業務系統中提取各待清洗數據,并將各所述待清洗數據存儲至多個服務器;
根據上述任意一項所述的數據清洗方法對各所述清洗數據進行清洗;以及
將經清洗后的數據加載到數據倉庫中。
根據本公開的一個方面,提供一種數據清洗裝置,應用于ETL數據處理過程,所述數據清洗裝置包括:
注冊單元,用于對接收到的多個清洗函數進行注冊,以獲得各所述清洗函數的標識信息;
生成單元,用于針對各待清洗數據的清洗需求,分別利用一個或多個所述標識信息生成對應的清洗規則;以及
清洗單元,用于將所述清洗規則發送至多個服務器,使各所述服務器根據所述清洗規則中的所述標識信息調用對應的一個或多個所述清洗函數,以對所述待清洗數據進行清洗。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于醫渡云(北京)技術有限公司,未經醫渡云(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710033549.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:訪問日志存儲查詢的方法、裝置及系統
- 下一篇:推薦詞的排序方法和裝置





