[發明專利]一種數據預處理方法、裝置和可讀存儲介質在審
| 申請號: | 202110839234.5 | 申請日: | 2021-07-23 |
| 公開(公告)號: | CN113626420A | 公開(公告)日: | 2021-11-09 |
| 發明(設計)人: | 趙振崇;薛鵬 | 申請(專利權)人: | 深圳力維智聯技術有限公司;南京中興力維軟件有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/22;G06N20/00 |
| 代理公司: | 深圳鼎合誠知識產權代理有限公司 44281 | 代理人: | 郭燕;彭家恩 |
| 地址: | 518000 廣東省深圳市南山區粵海街道高新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 預處理 方法 裝置 可讀 存儲 介質 | ||
一種數據預處理方法、裝置和計算機可讀存儲介質,其中的方法首先對待處理數據集進行數據清洗,數據清洗包括缺失值處理、異常值處理、重復數據剔除、無效離散值剔除和不平衡數據處理,然后對數據集進行特征工程處理,特征工程處理中分別對離散值和連續值進行標準化處理,然后計算數據集的特征維度,若特征維度大于預設的維度上限值則進行特征降維,若特征維度小于預設的維度下限值則進行特征構造,由于包括了多種數據預處理操作,從而能夠處理大多數的低質量數據,且通過特征工程生成高質量的特征,提高了機器學習模型的性能;用戶只需要輸入要處理的數據集,即可得到高質量的數據,無需了解數據的內部情況,降低了數據預處理的難度和工作量。
技術領域
本發明涉及信息處理技術領域,具體涉及一種數據預處理方法、裝置和可讀存儲介質。
背景技術
隨著大數據的發展,機器學習應用已經在和行業結合逐步落地,在機器學習的研究及應用過程中,數據質量是影響機器學習模型準確性的關鍵因素,決定了機器學習模型的上限。如何快速有效地對數據進行預處理,提高數據的質量,成為機器學習數據預處理技術領域的關鍵問題。例如在分布式機器學習領域,Spark作為快速和通用的大規模數據處理技術,目前已經在業界廣泛應用,但在此領域并沒有通用和成熟的自動預處理技術或者說自動特征工程技術,數據分析人員必須手動治理數據,以提高數據質量,然而數據預處理中可能涉及數據清洗、特征工程等多項操作,這給數據分析人員帶來了極大的工作量和難度。
發明內容
本申請提供一種數據預處理方法、裝置和可讀存儲介質,旨在解決現有技術無法實現自動數據預處理,數據分析人員需手動治理數據,導致數據預處理工作量大和難度大的問題。
根據第一方面,一種實施例中提供一種數據預處理方法,包括:
獲取待處理數據集;
對所述待處理數據集進行數據清洗,所述數據清洗的任務包括缺失值處理、異常值處理、重復數據剔除、無效離散值剔除和不平衡數據處理;
對進行數據清洗后的數據集進行特征工程處理,從而完成對所述待處理數據集的預處理,所述特征工程處理包括:分別對離散值和連續值進行標準化處理,然后計算數據集的特征維度,若特征維度大于預設的維度上限值則進行特征降維,若特征維度小于預設的維度下限值則進行特征構造;
輸出預處理后的數據集。
一種實施例中,所述待處理數據集包括特征列和標簽列,所述缺失值處理包括:計算特征列中缺失值的比例,當特征列中缺失值的比例大于預設的缺失值比例閾值時,則刪除該列,否則對該列進行缺失值填充;
所述異常值處理包括:判斷數據是否為異常值,如果是則刪除該異常值并進行填充;
所述重復數據剔除包括:判斷特征列中重復數據的比例是否超過預設的重復數據比例閾值,如果是則刪除該列,否則保留該列;
所述無效離散值剔除包括:計算特征列中離散值的比例,當離散值的比例大于預設的離散值比例閾值時,判定該列的離散值為無效離散值,刪除該列,否則保留該列;
所述不平衡數據處理包括:計算標簽列中各個不同的類別值所占的比例是否相同,如果不同則判定所述待處理數據集中各個類別的樣本量不平衡,進行數據平衡治理,以使所述待處理數據集中各個類別的樣本所占的比例相同。
一種實施例中,使用線性填充、固定值填充、眾數填充、中位數填充或KNN填充對缺失值和異常值進行填充。
一種實施例中,通過以下方式判斷數據是否為異常值:
當數據距離其所在列的數據的平均值大于3δ時,則判定該數據為異常值,其中δ為數據所在列的數據的標準差;
或者,當數據超出其所在列的箱線圖的上四分位數或下四分位數時,則判定該數據為異常值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳力維智聯技術有限公司;南京中興力維軟件有限公司,未經深圳力維智聯技術有限公司;南京中興力維軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110839234.5/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





