[發明專利]數據預處理方法和裝置在審
| 申請號: | 201710253513.7 | 申請日: | 2017-04-18 |
| 公開(公告)號: | CN108733691A | 公開(公告)日: | 2018-11-02 |
| 發明(設計)人: | 王成 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據預處理 預處理 源數據 方法和裝置 配置信息 預處理程序 參數匹配 代碼重復 接收業務 配置文件 有效解決 同步的 遍歷 調用 清洗 變更 查找 統一 | ||
本發明實施例提供一種數據預處理方法和裝置,能夠有效解決現有技術中存在的數據預處理不統一、代碼重復、變更不同步的問題。該數據預處理方法包括:接收業務模型發出的調用包中的清洗方法的請求;所述請求包括:源數據參數;遍歷配置文件,查找與所述源數據參數匹配的預處理配置信息;根據包中的預處理程序和所述預處理配置信息對源數據進行預處理。
技術領域
本發明涉及計算機技術領域,尤其涉及一種數據預處理方法和裝置。
背景技術
Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。Spark是一個為速度和通用目標設計的集群計算平臺,能更有效地支持多種類型的計算,如交互式查詢和流處理。
隨著Hadoop+Spark大數據框架的逐步發展,越來越多擅長不同編程語言的數據挖掘工程師會利用大數據框架開發不同的業務模型,例如用戶信用評分模型、刷單模型、黃牛識別模型。之后,數據挖掘工程師可針對各個業務模型進行數據預處理、模型訓練等。
在現有技術中,往往是針對各個業務模型單獨編寫對應的數據預處理程序。例如,針對信用評分模型編寫了數據預處理程序,針對刷單模型編寫了數據預處理程序。雖然這兩個模型都用到了用戶歷史訂單相關的指標,比如歷史有效訂單量,但是需要分別針對該指標進行預處理。另外,雖然這兩個模型都用到了相同的離散化處理方法,但是需要各自編寫預處理程序。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
第一、數據預處理不統一。對于相同的數據,不同業務模型會有不同的預處理過程。第二,代碼重復。對于不同業務模型中相同的預處理步驟,需要重復開發代碼,增加開發成本。第三、變更不同步。當業務變化導致數據變更時,需要分別對不同業務模型中的預處理程序進行修改處理。
發明內容
有鑒于此,本發明實施例提供一種數據預處理方法和裝置,能夠有效解決現有技術中存在的數據預處理不統一、代碼重復、變更不同步的問題。
為實現上述目的,根據本發明實施例的一個方面,提供了一種數據預處理方法。
本發明實施例的數據預處理方法包括:步驟S1、接收業務模型發出的調用包中的清洗方法的請求;所述請求包括:源數據參數;步驟S2、遍歷配置文件,查找與所述源數據參數匹配的預處理配置信息;步驟S3、根據包中的預處理程序和所述預處理配置信息對源數據進行預處理。
可選地,所述源數據參數包括:表名、表中的字段名;所述預處理配置信息包括:表名、表中的字段名、表中字段的預處理配置參數。
可選地,所述表中字段的預處理配置參數包括以下至少一項:數據類型配置、最大值配置、最小值配置、精度配置、正則表達式配置、枚舉值列表配置、異常值列表配置、缺失值填充配置、噪音去除配置、歸一化配置、離散化配置、縮放配置。
可選地,在步驟S1之前,所述方法還包括:初始化配置文件,并將初始化后的配置文件寫入緩存。
可選地,在步驟S3之后,所述方法還包括:將源數據預處理結果返回至所述業務模型。
為實現上述目的,根據本發明實施例的另一個方面,提供了一種數據預處理裝置。
本發明實施例的數據預處理裝置包括:接收模塊,用于接收業務模型發出的調用包中的清洗方法的請求;所述請求包括:源數據參數;匹配模塊,用于遍歷配置文件,查找與所述源數據參數匹配的預處理配置信息;執行模塊,用于根據包中的預處理程序和所述預處理配置信息對源數據進行預處理。
可選地,所述接收模塊接收的源數據參數包括:表名、表中的字段名;所述匹配模塊查找到的預處理配置信息包括:表名、表中的字段名、表中字段的預處理配置參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710253513.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:圖像數據存儲方法、裝置及電子設備
- 下一篇:一種社交信息推薦方法和裝置





