[發明專利]一種數據預處理方法在審
| 申請號: | 202110265579.4 | 申請日: | 2021-03-11 |
| 公開(公告)號: | CN112883096A | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 郭文斌;何漢武;楊賢;胡昱;鄒漢榮;丘康平;王鵬 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/215;G06F16/28 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 許慶勝 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 預處理 方法 | ||
本發明公開了一種數據預處理方法,包括以下步驟:在接收到數據預處理指令時,從多個數據源中讀取待處理的數據;將所述待處理的數據中的非結構化數據轉換為結構化數據;根據預處理匹配庫對所述結構化數據進行聚類得到聚類數據;對所述聚類數據進行數據標準化、數據聯合和數據清洗后得到預處理后的數據。本發明提供的方法,能消除多源數據間的隔閡,實現多源數據共享統一的預處理操作方案,對多源數據的預處理效率更高,得到的預處理后的數據質量更高。
技術領域
本發明涉及數據處理技術領域,尤其是涉及一種數據預處理方法。
背景技術
現有技術可以實現形式多樣的數據預處理流程,但是數據處理的數據范圍局限性高,只能適用于某一個特定領域的特定數據,擴展性和靈活性還不夠強,對于通用的用于機器學習建模或者分析的數據,仍然還需要采用特征表達的方式提高其數據預處理的兼容性。
傳統的數據預處理方法還包含采用ETL技術在大數據平臺實現數據從數據源獲取數據、轉化和存儲的過程;或者采用人工手動收集、處理和存儲的方式實現,數據預處理的流程針對每種不同形式的數據制定不同的數據預處理規則,特別是使用不同源數據運用于大數據分析、大數據機器學習構建大數據模型都需要經過繁瑣的數據預處理過程,方能從數據獲取到高質量可運算的數據。
大數據平臺的ETL技術針對不同源的數據采用不同的ETL方案,數據的采集轉化存儲實現率高但是仍然無法直接用于數據分析和建模計算,仍需要進一步預處理過程才可獲得高質量可運算的數據。
同時,現有技術中不同源的數據需要采用不同的接口實現數據調用,調用后的不同源數據一般不能在同一個數據預處理方案中共享使用。
發明內容
本發明的目的是提供一種數據預處理方法,以解決相關技術中不同源數據的數據預處理過程繁雜、擴展性和靈活性不夠的技術問題。
本發明的目的,可以通過如下技術方案實現:
一種數據預處理方法,包括以下步驟:
在接收到數據預處理指令時,從多個數據源中讀取待處理的數據;
將所述待處理的數據中的非結構化數據轉換為結構化數據;
根據預處理匹配庫對所述結構化數據進行聚類得到聚類數據;
對所述聚類數據進行數據標準化、數據聯合和數據清洗后得到預處理后的數據。
進一步地,根據預處理匹配庫對所述結構化數據進行聚類得到聚類數據包括:
對所述結構化數據的特征列數據進行輪詢,檢測空特征數據,通過強制轉換得到數值型數據,根據字符串動態匹配得到非數值型數據和混合型數據;其中,所述預處理匹配庫包括字符特征匹配庫和特征正則匹配庫,所述混合型數據包括數值型數據和非數值型數據。
進一步地,通過強制轉換得到數值型數據之前還包括:檢測所述特征列數據是否為時間格式的數據,若是則所述特征列數據為時間日期型數據。
進一步地,通過強制轉換得到數值型數據包括:將所述特征列數據進行浮點型強制轉換,若轉換成功,則所述特征列數據為單維數值型數據;否則,去掉所述特征列數據中的多余字符得到多維數值型數據。
進一步地,根據字符串動態匹配得到非數值型數據和混合型數據包括:
將所述特征列數據進行字符串動態匹配,若匹配到數字,則所述特征列數據為混合型數據,否則所述特征列數據為非數值型數據。
進一步地,根據字符串動態匹配得到非數值型數據和混合型數據之后還包括:
根據字符特征匹配庫將所述非數值型數據分為單維非數值型數據和多維非數值型數據,具體為:判斷所述非數值型數據是否全部匹配到單個字符,若是,則為單維非數值型數據,否則為多維非數值型數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110265579.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





