[發明專利]電子裝置、數據處理方法及計算機可讀存儲介質在審
| 申請號: | 201710914863.3 | 申請日: | 2017-09-30 |
| 公開(公告)號: | CN107807956A | 公開(公告)日: | 2018-03-16 |
| 發明(設計)人: | 吳振宇;劉睿愷;王建明;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙)44347 | 代理人: | 高杰,于志光 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電子 裝置 數據處理 方法 計算機 可讀 存儲 介質 | ||
技術領域
本發明涉及通信技術領域,尤其涉及一種電子裝置、數據處理方法及計算機可讀存儲介質。
背景技術
ETL(Extract-Transform-Load,提取-轉換-裝載)是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據清洗,最終按照定義的數據倉庫模型,將數據加載到數據倉庫中去。目前,在對數據整理和對數據建模的過程中,需要技術人員投入大量精力一步步對數據ETL操作,然后在整理好的數據上一步步進行建模分析,包括選擇參數、建模模型及調整具體模型結構,這種操作方式費時費力,數據處理效率低。
發明內容
本發明的目的在于提供一種電子裝置、數據處理方法及計算機可讀存儲介質,旨在簡化數據整理分析和建模過程中用戶的操作,提高數據處理效率。
為實現上述目的,本發明提供一種電子裝置,所述電子裝置包括存儲器及與所述存儲器連接的處理器,所述存儲器中存儲有可在所述處理器上運行的數據處理系統,所述數據處理系統被所述處理器執行時實現如下步驟:
S1,在獲取數據源端的數據后,基于預設的數據類型對所獲取的數據進行類型的轉換處理,以及對轉換處理后的數據進行異常處理及空值處理;
S2,在完成所有處理階段的數據處理后,將最終處理階段處理后的數據作為待建模的數據存儲至預設的傳遞途徑ETL Pipeline中;
S3,獲取預設的多個機器算法模型及與各個機器算法模型對應的預設的模型參數范圍,基于網格搜索grid search選取機器算法模型及與該機器算法模型對應的模型參數,以對待建模的數據進行建模。
優選地,所述數據處理系統被所述處理器執行時,還實現如下步驟:
在最終處理階段之前,且在完成每一處理階段的數據處理后,將各個處理階段處理后的數據存儲至預設的對應的傳遞途徑ETL Pipeline中,或者,基于用戶的設置將選定的處理階段處理后的數據存儲至預設的對應的傳遞途徑ETL Pipeline中。
優選地,所述步驟S3包括:
對于每一機器算法模型及該機器算法模型對應的模型參數范圍中的每一模型參數構建的對應的機器算法模型進行訓練;
對訓練后的機器算法模型的準確率進行驗證;
選取準確率最高的機器算法模型及對應的模型參數,以對待建模的數據進行建模。
優選地,所述異常處理包括:處理數據中的噪音點或者數據中的亂碼;所述空值處理包括:捕獲數據中的空值字段,利用平均值、中位數、出現頻率最高的值或用戶設置的值填充所捕獲的空值字段。
為實現上述目的,本發明還提供一種數據處理方法,所述數據處理方法包括:
S1,在獲取數據源端的數據后,基于預設的數據類型對所獲取的數據進行類型的轉換處理,以及對轉換處理后的數據進行異常處理及空值處理;
S2,在完成所有處理階段的數據處理后,將最終處理階段處理后的數據作為待建模的數據存儲至預設的傳遞途徑ETL Pipeline中;
S3,獲取預設的多個機器算法模型及與各個機器算法模型對應的預設的模型參數范圍,基于網格搜索grid search選取機器算法模型及與該機器算法模型對應的模型參數,以對待建模的數據進行建模。
優選地,所述步驟S2之前還包括:
在最終處理階段之前,且在完成每一處理階段的數據處理后,將各個處理階段處理后的數據存儲至預設的對應的傳遞途徑ETL Pipeline中,或者,基于用戶的設置將選定的處理階段處理后的數據存儲至預設的對應的傳遞途徑ETL Pipeline中。
優選地,所述步驟S3包括:
對于每一機器算法模型及該機器算法模型對應的模型參數范圍中的每一模型參數構建的對應的機器算法模型進行訓練;
對訓練后的機器算法模型的準確率進行驗證;
選取準確率最高的機器算法模型及對應的模型參數,以對待建模的數據進行建模。
優選地,所述異常處理包括:處理數據中的噪音點或者數據中的亂碼;所述空值處理包括:捕獲數據中的空值字段,利用平均值、中位數、出現頻率最高的值或用戶設置的值填充所捕獲的空值字段。
優選地,所述數據類型包括整數類型、浮點數類型及字符串類型。
本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有數據處理系統,所述數據處理系統被處理器執行時實現上述的數據處理方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710914863.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:無線txt閱讀器及閱讀方法
- 下一篇:實體庫生成方法及裝置





