[發明專利]數據處理方法和裝置在審
| 申請號: | 201710272081.4 | 申請日: | 2017-04-24 |
| 公開(公告)號: | CN108734330A | 公開(公告)日: | 2018-11-02 |
| 發明(設計)人: | 欒宏偉;胡壁;宋全旺;宋磊;楊冬越 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q30/02;G06F17/30 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預測模型訓練 數據清洗 預測模型 數據處理 方法和裝置 運算 機器學習 訓練數據 運算過程 算法庫 清洗 判決 | ||
本發明提供一種數據處理方法和裝置。本發明的數據處理方法包括下列步驟:?用機器學習法來訓練數據清洗規則以進行數據清洗,并且利用訓練出的數據清洗判決模型對預測模型訓練數據進行數據清洗判斷;?從預測模型算法庫中選擇參與預測模型訓練運算的預測模型;?在預測模型訓練運算過程中對參與預測模型訓練運算的具體預測模型進行參數調優。
技術領域
本發明涉及計算機領域,尤其涉及一種數據處理方法和裝置、電子設備及可讀存儲介質。
背景技術
銷量預測是一種根據商品歷史銷量數量預測商品未來銷量數據的方法,機器學習在銷量預測中得到了廣泛的應用,機器學習預測模型在進行訓練之前需要對數據進行大量的數據清洗工作;預測過程中往往會選用多個預測模型,每個預測模型需要單獨進行調優,然后將多個預測模型的預測結果進行綜合作為商品最后的銷量預測值。
概括而言,通過機器學習進行銷量預測通常包括如下步驟:
-在訓練預測模型前制定清洗規則。
-對每個商品使用多個預測方法進行預測,然后取近期預測效果最好的預測方法的預測結果作為預測值。
其中,在進行預測模型訓練時,模型最優參數的微調有兩種方法,一種是每隔一段時間搜索一次最優訓練參數,另一種方法是每次訓練之前搜索最優訓練參數。
訓練數據中有一部分數據可能由于系統故障,或由于特殊原因會體現出一些特征,比如明顯極高或極小。訓練過程中這一部分數據會使預測模型出現偏差,降低預測準確度,因此需要對所有這一部分數據進行過濾處理,即所謂的數據清洗。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
首先,數據清洗是很重要的一個工作,往往需要人為制定大量清洗規則,而且清洗規則需要隨時間及業務進行調整,費時費力。而且很多數據不能得到及時清洗,因此會扭曲預測模型。
其次,由于要對每個商品使用多個預測方法進行預測,然后取近期預測效果最好的預測方法的預測結果作為預測值,這就需要對所有的預測算法都進行一遍計算,如果數據量比較巨大,計算資源會成為瓶頸。
此外,模型訓練時模型最優參數的微調往往也需要算法進行多次運行,以找到最優參數,這同樣會銷耗大量計算資源。
發明內容
有鑒于此,本發明實施例提供一種數據處理方法和裝置、電子設備及可讀存儲介質,由此能夠將以往的預測經驗提取出來(這些經驗包括如何進行數據篩選,如何進行模型選擇,如何對具體模型進行參數調優),在以后的預測中加以利用,從而在提高預測準確率的同時減少計算量。
為實現上述目的,根據本發明實施例的一個方面,提供了一種數據處理方法。
根據本發明一種優選實施方式,本發明的數據處理方法包括下列步驟:
-用機器學習法來訓練數據清洗規則以進行數據清洗,并且利用訓練出的數據清洗判決模型對預測模型訓練數據進行數據清洗判斷;
-從預測模型算法庫中選擇參與預測模型訓練運算的預測模型;
-在預測模型訓練運算過程中對參與預測模型訓練運算的具體預測模型進行參數調優。
在本發明中,優選的是,為了訓練數據清洗判決模型,提供清洗庫,所述清洗庫中存放異常數據的特征,其中,異常數據的來源包括以下各項中的至少一項:歷史異常數據、業務方反饋的新發現的異常數據、由所有數據清洗判決模型一致判斷為異常數據的數據、或經一個或多個數據清洗判決模型判斷為異常數據并經人工識別后確認為異常數據的可疑數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710272081.4/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





