[發明專利]一種數據處理方法和系統有效
| 申請號: | 202011065165.9 | 申請日: | 2020-09-30 |
| 公開(公告)號: | CN112182314B | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 方磊;王清臣;崔琳琳;姜琦 | 申請(專利權)人: | 北京九章云極科技有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F9/445 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;黃燦 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 系統 | ||
本發明提供一種數據處理方法和系統,該方法包括:獲取用戶設置的場景數據;基于所述場景數據從特征倉庫中選擇對應的特征工程算子;使用所述特征工程算子對輸入的原始數據進行處理,得到目標特征數據。本發明實施例中的基于場景數據自動匹配特征倉庫中的特征工程算子,從而可以自動實現將所述原始數據加工處理為特征數據,提高了數據處理的效率。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種數據處理方法和系統。
背景技術
現有的數據分析系統,為了提高數據分析結果的準確性,需要將原始數據加工成高維特征數據,從而基于生成的高維特征數據,對模型進行訓練。而在生成用于訓練模型的高維特征數據過程中,需要數據科學家編寫特征加工處理算法,并利用特征加工處理算法對原始數據進行加工生成特征數據,然后觀察得到的特征數據是否滿足需求,若不滿足,則需要調整或重新編寫特征加工處理算法再次進行嘗試。由于現有技術中在對相關數據進行加工得到用于模型訓練的高維特征數據時,需要數據科學反復試用特征加工處理算法對數據進行加工處理,并且反復觀察加工處理后數據,效率低。
發明內容
本發明實施例提供一種數據處理方法和系統,解決現有的數據處理方法處理效率低的問題。
為解決上述技術問題,本發明提供一種數據處理方法,,所述方法包括:
獲取用戶設置的場景數據;
基于所述場景數據從特征倉庫中選擇對應的特征工程算子;
使用所述特征工程算子對輸入的原始數據進行處理,得到目標特征數據。
可選的,上述方法中,當所述場景數據包括場景,所述基于所述場景數據從特征倉庫中選擇對應的特征工程算子,包括:基于所述場景,從特征倉庫中選擇對應的目標特征工程算子;
或者;
當所述場景數據包括場景和算法,所述基于所述場景數據從特征倉庫中選擇對應的特征工程算子,包括:基于所述場景和算法,從特征倉庫中選擇對應的目標特征工程算子。
可選的,上述方法中,所述特征倉庫包括預置的特征工程算子,所述預置的特征工程算子包括基礎特征工程算子和場景特征工程算子中的至少一項。
可選的,上述方法中,所述基礎特征工程算子包括以下至少一項:缺失值處理、歸一化、標準化、數據類型轉換、數值編碼、特征二值化、特征分箱、獨熱編碼、自動特征工程、特征聚合、特征衍生、遞歸特征篩選、遞歸特征消除、模型篩選、特征刪除、相關性篩選和特征清洗。
可選的,上述方法中,所述場景特征工程算子包括:至少一個所述基礎特征工程算子,所述基礎特征工程算子之間的連接關系和場景特征重要性信息。
可選的,上述方法中,所述基于所述場景數據從特征倉庫中選擇對應的特征工程算子的步驟包括:
基于所述場景數據,從所述特征倉庫中獲取與所述場景數據對應的場景特征工程算子。
可選的,上述方法中,所述基于所述場景數據從特征倉庫中選擇對應的特征工程算子的步驟包括:
基于所述場景數據,從所述特征倉庫中獲取與所述場景數據對應的至少一個基礎特征工程算子,以及基礎特征算子之間的連接關系。
可選的,上述方法中,所述基于所述場景數據從特征倉庫中選擇對應的特征工程算子的步驟包括:
基于所述場景數據以及用戶設置的場景特征重要性信息,從所述特征倉庫中獲取與所述場景數據對應的至少一個基礎特征工程算子,以及基礎特征算子之間的連接關系。
可選的,上述方法中,所述使用所述特征工程算子對所述原始數據進行處理,得到目標特征數據包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京九章云極科技有限公司,未經北京九章云極科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011065165.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高效節能的鋁合金防火窗
- 下一篇:一種安全便捷的海洋垂釣平臺





