[發(fā)明專利]模塊化數(shù)據(jù)清洗方法及裝置在審
| 申請?zhí)枺?/td> | 201910080168.0 | 申請日: | 2019-01-28 |
| 公開(公告)號: | CN109947753A | 公開(公告)日: | 2019-06-28 |
| 發(fā)明(設(shè)計)人: | 楊柳;田森;黃小浦;安平凱 | 申請(專利權(quán))人: | 中科恒運股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 石家莊國為知識產(chǎn)權(quán)事務(wù)所 13120 | 代理人: | 秦敏華 |
| 地址: | 050090 河北省石家莊市新石*** | 國省代碼: | 河北;13 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)清洗 模塊化 組件模型 清洗 數(shù)據(jù)處理技術(shù) 接收客戶端 調(diào)用組件 解析結(jié)果 解析數(shù)據(jù) 可擴展性 可重用性 原始數(shù)據(jù) 發(fā)送 | ||
本發(fā)明適用于數(shù)據(jù)處理技術(shù)領(lǐng)域,提供了一種模塊化數(shù)據(jù)清洗方法及裝置,其中,上述方法包括:接收客戶端發(fā)送的數(shù)據(jù)清洗請求;解析數(shù)據(jù)清洗請求,并根據(jù)解析結(jié)果確定對應(yīng)的組件模型調(diào)用組件模型的接口對數(shù)據(jù)清洗請求中的原始數(shù)據(jù)進行清洗。由于組件模型可以根據(jù)具體的數(shù)據(jù)清洗請求進行組合,使得本發(fā)明實施例提供的模塊化數(shù)據(jù)清洗方法具有較高的靈活性和可擴展性;同時,由于各個組件模型可以重復(fù)使用,從而提高了模塊化數(shù)據(jù)清洗的可重用性。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種模塊化數(shù)據(jù)清洗方法及裝置。
背景技術(shù)
數(shù)據(jù)清洗主要在數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和數(shù)據(jù)質(zhì)量管理這三個領(lǐng)域研究較多。目前,國內(nèi)對數(shù)據(jù)清洗技術(shù)的研究還處于初級階段,大多是在數(shù)據(jù)倉庫、決策支持、數(shù)據(jù)挖掘研究中,對其做一些比較簡單的闡述。很多數(shù)據(jù)清洗方案和算法都是針對特定應(yīng)用問題專門設(shè)計的,只適用于較小的范圍。傳統(tǒng)的模塊化數(shù)據(jù)清洗方法及裝置或系統(tǒng)的可重用性、可擴展性與靈活性較差,在數(shù)據(jù)量較小時能夠滿足用戶的使用需求,但在數(shù)據(jù)量龐大且多源的情況下,其可重用性、可擴展性與靈活性較差的問題尤為突出。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供了一種模塊化數(shù)據(jù)清洗方法及裝置,以解決現(xiàn)有技術(shù)中數(shù)據(jù)清洗方法或系統(tǒng)存在的可重用性、可擴展性與靈活性較差的問題。
根據(jù)第一方面,本發(fā)明實施例提供了一種模塊化數(shù)據(jù)清洗方法,包括:接收客戶端發(fā)送的數(shù)據(jù)清洗請求和待清洗數(shù)據(jù);解析所述數(shù)據(jù)清洗請求,并根據(jù)解析結(jié)果確定對應(yīng)的組件模型;每個所述組件模型用于實現(xiàn)相應(yīng)的數(shù)據(jù)清洗功能;調(diào)用所述組件模型的接口對所述待清洗數(shù)據(jù)進行清洗。
結(jié)合第一方面,在第一方面第一實施方式中,在所述接收客戶端發(fā)送的數(shù)據(jù)清洗請求的步驟之前,所述模塊化數(shù)據(jù)清洗方法還包括:構(gòu)建多個用于數(shù)據(jù)清洗的組件模型;分別為各個所述組件模型設(shè)計對應(yīng)的接口。
結(jié)合第一方面,在第一方面第二實施方式中,所述解析所述數(shù)據(jù)清洗請求,并根據(jù)解析結(jié)果確定對應(yīng)的組件模型,包括:檢索所述數(shù)據(jù)清洗請求中的關(guān)鍵字;根據(jù)所述關(guān)鍵字以及各個所述組件模型的名稱信息或功能信息,確定對應(yīng)的組件模型。
結(jié)合第一方面,在第一方面第三實施方式中,所述數(shù)據(jù)清洗請求中包含組件模型標識信息,所述解析所述數(shù)據(jù)清洗請求,并根據(jù)解析結(jié)果確定對應(yīng)的組件模型,包括:提取所述數(shù)據(jù)清洗請求中的組件模型標識信息;根據(jù)所述組件模型標識信息確定對應(yīng)的組件模型。
結(jié)合第一方面或第一方面第一至第三中的任一實施方式,在第一方面第四實施方式中,在所述調(diào)用所述組件模型的接口對所述數(shù)據(jù)清洗請求中的原始數(shù)據(jù)進行清洗的步驟之后,所述模塊化數(shù)據(jù)清洗方法還包括:檢驗清洗結(jié)果;當所述清洗結(jié)果不滿足所述數(shù)據(jù)清洗請求中的清洗要求時,重復(fù)執(zhí)行所述調(diào)用所述組件模型的接口對所述數(shù)據(jù)清洗請求中的原始數(shù)據(jù)進行清洗的步驟,直至所述清洗結(jié)果滿足所述數(shù)據(jù)清洗請求中的清洗要求。
結(jié)合第一方面第四實施方式,在第一方面第五實施方式中,所述模塊化數(shù)據(jù)清洗方法還包括:當所述清洗結(jié)果滿足所述數(shù)據(jù)清洗請求中的清洗要求時,將洗清后的原始數(shù)據(jù)存儲至預(yù)設(shè)的目標數(shù)據(jù)庫。
根據(jù)第二方面,本發(fā)明實施例提供了一種模塊化數(shù)據(jù)清洗裝置,包括:輸入單元,用于接收客戶端發(fā)送的數(shù)據(jù)清洗請求和待清洗數(shù)據(jù);解析單元,用于解析所述數(shù)據(jù)清洗請求,并根據(jù)解析結(jié)果確定對應(yīng)的組件模型;每個所述組件模型用于實現(xiàn)相應(yīng)的數(shù)據(jù)清洗功能;執(zhí)行單元,用于調(diào)用所述組件模型的接口對所述待清洗數(shù)據(jù)進行清洗。
結(jié)合第二方面,在第二方面第一實施方式中,所述模塊化數(shù)據(jù)清洗裝置還包括:型構(gòu)建單元,用于構(gòu)建多個用于數(shù)據(jù)清洗的組件模型;接口單元,用于分別為各個所述組件模型設(shè)計對應(yīng)的接口。
根據(jù)第三方面,本發(fā)明實施例提供了一種終端設(shè)備,包括:存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如第一方面或第一方面任一實施方式所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中科恒運股份有限公司,未經(jīng)中科恒運股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910080168.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)清洗系統(tǒng)和數(shù)據(jù)清洗方法
- 數(shù)據(jù)清洗方法及數(shù)據(jù)清洗裝置
- 一種數(shù)據(jù)清洗的方法及用于數(shù)據(jù)清洗的裝置
- 一種數(shù)據(jù)清洗方法、裝置及計算機可讀存儲介質(zhì)
- 數(shù)據(jù)清洗方法、裝置、設(shè)備和存儲介質(zhì)
- 一種數(shù)據(jù)清洗方法及裝置
- 一種快速運行的大數(shù)據(jù)清洗方法
- 數(shù)據(jù)清洗方法及裝置
- 一種數(shù)據(jù)清洗方法、系統(tǒng)、數(shù)據(jù)清洗設(shè)備和可讀存儲介質(zhì)
- 一種數(shù)據(jù)清洗方法和裝置





