[發明專利]數據清洗方法和裝置在審
| 申請號: | 202110336886.7 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN112925785A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 林楚榮;朱祖恩;陳旭明 | 申請(專利權)人: | 中國建設銀行股份有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06K9/62;G06N20/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張效榮;王志遠 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 清洗 方法 裝置 | ||
本發明公開了一種數據清洗方法和裝置,涉及自動程序設計技術領域。該方法的一具體實施方式包括:獲取不具有標簽值的多個初始數據樣本;將每一初始數據樣本輸入預先訓練完成的樣本分類模型,得到每一初始數據樣本的初始標簽值;其中,所述初始標簽值包括:初步正常和初步異常,每一初始數據樣本與該初始數據樣本的初始標簽值形成初始訓練樣本;依據所述多個初始數據樣本對應的初始訓練樣本訓練預設的數據清洗模型;獲取待清洗數據;將待清洗數據輸入訓練完成的數據清洗模型,得到所述待清洗數據中的異常數據,將所述異常數據去除。該實施方式能夠基于機器學習模型精確識別異常樣本,并且具有較高的清洗效率。
技術領域
本發明涉及自動程序設計技術領域,尤其涉及一種數據清洗方法和裝置。
背景技術
數據清洗是數據分析過程中不可缺少的一個環節,其結果直接影響后續計算效果和計算結論。目前,一般通過以下步驟進行數據清洗:首先分析待清洗的海量數據中的關鍵要素,根據關鍵要素制定固定的清洗規則,之后根據制定的清洗規則對待清洗樣本逐條進行清洗,符合規則的識別為正常樣本,不符合規則的識別為異常樣本,最后清理異常樣本,保留正常樣本。
在實現本發明的過程中,發明人發現現有技術至少存在以下問題:過度依賴于清洗規則,對異常樣本的識別不夠精確,容易誤傷正常樣本;另外,使用機械的規則清洗機制,處理海量樣本時清洗效率不高。
發明內容
有鑒于此,本發明實施例提供一種數據清洗方法和裝置,能夠基于機器學習模型精確識別異常樣本,并且具有較高的清洗效率。
為實現上述目的,根據本發明的一個方面,提供了一種數據清洗方法。
本發明實施例的數據清洗方法包括:獲取不具有標簽值的多個初始數據樣本;將每一初始數據樣本輸入預先訓練完成的樣本分類模型,得到每一初始數據樣本的初始標簽值;其中,所述初始標簽值包括:初步正常和初步異常,每一初始數據樣本與該初始數據樣本的初始標簽值形成初始訓練樣本;依據所述多個初始數據樣本對應的初始訓練樣本訓練預設的數據清洗模型;獲取待清洗數據;將待清洗數據輸入訓練完成的數據清洗模型,得到所述待清洗數據中的異常數據,將所述異常數據去除。
可選地,所述依據所述多個初始數據樣本對應的初始訓練樣本訓練預設的數據清洗模型,包括:通過人工標記方式確定初始標簽值為初步異常的初始訓練樣本的最終標簽值,最終標簽值包括最終正常和最終異常,每一初始數據樣本與該初始數據樣本對應的最終標簽值形成真實訓練樣本;將初始標簽值是初步正常的初始訓練樣本確定為最終標簽值是最終正常的真實訓練樣本;使用真實訓練樣本訓練所述數據清洗模型。
可選地,所述使用真實訓練樣本訓練所述數據清洗模型,包括:將每一真實訓練樣本的初始數據樣本部分作為訓練輸入數據、最終標簽值部分作為訓練指向數據來訓練所述數據清洗模型。
可選地,所述將待清洗數據輸入訓練完成的數據清洗模型,得到所述待清洗數據中的異常數據,包括:將每一待清洗數據輸入訓練完成的數據清洗模型,根據所述數據清洗模型的輸出結果判斷該待清洗數據是否為異常數據。
可選地,所述樣本分類模型為基于高斯混合模型GMM的機器學習模型,所述數據清洗模型為基于LightGBM算法的機器學習模型。
為實現上述目的,根據本發明的另一方面,提供了一種數據清洗裝置。
本發明實施例的數據清洗裝置可包括:樣本獲取單元,用于獲取不具有標簽值的多個初始數據樣本;樣本分類單元,用于將每一初始數據樣本輸入預先訓練完成的樣本分類模型,得到每一初始數據樣本的初始標簽值;其中,所述初始標簽值包括:初步正常和初步異常,每一初始數據樣本與該初始數據樣本的初始標簽值形成初始訓練樣本;訓練單元,用于依據所述多個初始數據樣本對應的初始訓練樣本訓練預設的數據清洗模型;清洗單元,用于獲取待清洗數據;將待清洗數據輸入訓練完成的數據清洗模型,得到所述待清洗數據中的異常數據,將所述異常數據去除。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國建設銀行股份有限公司,未經中國建設銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110336886.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種身份驗證方法和裝置
- 下一篇:一種基于地圖信息的數據處理方法以及裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





