[發明專利]模塊化數據清洗方法及裝置在審
| 申請號: | 201910080168.0 | 申請日: | 2019-01-28 |
| 公開(公告)號: | CN109947753A | 公開(公告)日: | 2019-06-28 |
| 發明(設計)人: | 楊柳;田森;黃小浦;安平凱 | 申請(專利權)人: | 中科恒運股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 石家莊國為知識產權事務所 13120 | 代理人: | 秦敏華 |
| 地址: | 050090 河北省石家莊市新石*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據清洗 模塊化 組件模型 清洗 數據處理技術 接收客戶端 調用組件 解析結果 解析數據 可擴展性 可重用性 原始數據 發送 | ||
本發明適用于數據處理技術領域,提供了一種模塊化數據清洗方法及裝置,其中,上述方法包括:接收客戶端發送的數據清洗請求;解析數據清洗請求,并根據解析結果確定對應的組件模型調用組件模型的接口對數據清洗請求中的原始數據進行清洗。由于組件模型可以根據具體的數據清洗請求進行組合,使得本發明實施例提供的模塊化數據清洗方法具有較高的靈活性和可擴展性;同時,由于各個組件模型可以重復使用,從而提高了模塊化數據清洗的可重用性。
技術領域
本發明屬于數據處理技術領域,尤其涉及一種模塊化數據清洗方法及裝置。
背景技術
數據清洗主要在數據倉庫、數據挖掘和數據質量管理這三個領域研究較多。目前,國內對數據清洗技術的研究還處于初級階段,大多是在數據倉庫、決策支持、數據挖掘研究中,對其做一些比較簡單的闡述。很多數據清洗方案和算法都是針對特定應用問題專門設計的,只適用于較小的范圍。傳統的模塊化數據清洗方法及裝置或系統的可重用性、可擴展性與靈活性較差,在數據量較小時能夠滿足用戶的使用需求,但在數據量龐大且多源的情況下,其可重用性、可擴展性與靈活性較差的問題尤為突出。
發明內容
有鑒于此,本發明實施例提供了一種模塊化數據清洗方法及裝置,以解決現有技術中數據清洗方法或系統存在的可重用性、可擴展性與靈活性較差的問題。
根據第一方面,本發明實施例提供了一種模塊化數據清洗方法,包括:接收客戶端發送的數據清洗請求和待清洗數據;解析所述數據清洗請求,并根據解析結果確定對應的組件模型;每個所述組件模型用于實現相應的數據清洗功能;調用所述組件模型的接口對所述待清洗數據進行清洗。
結合第一方面,在第一方面第一實施方式中,在所述接收客戶端發送的數據清洗請求的步驟之前,所述模塊化數據清洗方法還包括:構建多個用于數據清洗的組件模型;分別為各個所述組件模型設計對應的接口。
結合第一方面,在第一方面第二實施方式中,所述解析所述數據清洗請求,并根據解析結果確定對應的組件模型,包括:檢索所述數據清洗請求中的關鍵字;根據所述關鍵字以及各個所述組件模型的名稱信息或功能信息,確定對應的組件模型。
結合第一方面,在第一方面第三實施方式中,所述數據清洗請求中包含組件模型標識信息,所述解析所述數據清洗請求,并根據解析結果確定對應的組件模型,包括:提取所述數據清洗請求中的組件模型標識信息;根據所述組件模型標識信息確定對應的組件模型。
結合第一方面或第一方面第一至第三中的任一實施方式,在第一方面第四實施方式中,在所述調用所述組件模型的接口對所述數據清洗請求中的原始數據進行清洗的步驟之后,所述模塊化數據清洗方法還包括:檢驗清洗結果;當所述清洗結果不滿足所述數據清洗請求中的清洗要求時,重復執行所述調用所述組件模型的接口對所述數據清洗請求中的原始數據進行清洗的步驟,直至所述清洗結果滿足所述數據清洗請求中的清洗要求。
結合第一方面第四實施方式,在第一方面第五實施方式中,所述模塊化數據清洗方法還包括:當所述清洗結果滿足所述數據清洗請求中的清洗要求時,將洗清后的原始數據存儲至預設的目標數據庫。
根據第二方面,本發明實施例提供了一種模塊化數據清洗裝置,包括:輸入單元,用于接收客戶端發送的數據清洗請求和待清洗數據;解析單元,用于解析所述數據清洗請求,并根據解析結果確定對應的組件模型;每個所述組件模型用于實現相應的數據清洗功能;執行單元,用于調用所述組件模型的接口對所述待清洗數據進行清洗。
結合第二方面,在第二方面第一實施方式中,所述模塊化數據清洗裝置還包括:型構建單元,用于構建多個用于數據清洗的組件模型;接口單元,用于分別為各個所述組件模型設計對應的接口。
根據第三方面,本發明實施例提供了一種終端設備,包括:存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如第一方面或第一方面任一實施方式所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科恒運股份有限公司,未經中科恒運股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910080168.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于DeepDive的自動數據清洗方法
- 下一篇:數據清洗方法及裝置





