[發明專利]數據處理方法和裝置在審
| 申請號: | 201710272081.4 | 申請日: | 2017-04-24 |
| 公開(公告)號: | CN108734330A | 公開(公告)日: | 2018-11-02 |
| 發明(設計)人: | 欒宏偉;胡壁;宋全旺;宋磊;楊冬越 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q30/02;G06F17/30 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預測模型訓練 數據清洗 預測模型 數據處理 方法和裝置 運算 機器學習 訓練數據 運算過程 算法庫 清洗 判決 | ||
1.一種數據處理方法,其特征在于,所述數據處理方法包括:
用機器學習法來訓練數據清洗規則以進行數據清洗,并且利用訓練出的數據清洗判決模型對預測模型訓練數據進行數據清洗判斷;
從預測模型算法庫中選擇參與預測模型訓練運算的預測模型;
在預測模型訓練運算過程中對參與預測模型訓練運算的具體預測模型進行參數調優。
2.根據權利要求1所述的方法,其特征在于,為了訓練數據清洗判決模型,提供清洗庫,所述清洗庫中存放異常數據的特征,其中,異常數據的來源包括以下各項中的至少一項:歷史異常數據、業務方反饋的新發現的異常數據、由所有數據清洗判決模型一致判斷為異常數據的數據、或經一個或多個數據清洗判決模型判斷為異常數據并經人工識別后確認為異常數據的可疑數據。
3.根據權利要求2所述的方法,其特征在于,所述利用訓練出的數據清洗判決模型對預測模型訓練數據進行數據清洗判斷包括:利用訓練出的數據清洗判決模型對預測模型訓練數據抽取出的特征進行數據清洗判斷,其中,將所有數據清洗判決模型判決得到的異常數據放進可疑數據庫,其中:
如果所有數據清洗判決模型判決結果均為異常數據,則直接將此數據加進清洗庫,作為下次數據清洗判決模型訓練的經驗數據;
如果多個數據清洗判決模型判決結果不一致,則在進行人工識別后選擇將相應數據加進清洗庫或不做處理。
4.根據權利要求1至3中任一項所述的方法,其特征在于,能采用的數據清洗判決模型包括以下各項中的至少一項:SVM、隨機森林、邏輯回歸、貝葉斯分類器。
5.根據權利要求1至3中任一項所述的方法,其特征在于,在進行預測模型選擇時,從預測模型算法庫所擁有的N個預測模型算法中選出預測誤差率最低的N1個預測算法參與預測模型訓練運算,然后將剩下的N2個預測算法按概率參與預測模型訓練運算。
6.根據權利要求5所述的方法,其特征在于,所述概率Pi由如下公式獲得:
Pi=(1/Δi)/(sumN2(1/Δi)),
其中,i代表候選算法的編號,i=1,2,……,N2;Δi為第i個候選算法的算法誤差率;sumN2()為求和函數,其將N2個候選算法的選擇系數1/Δi求和。
7.根據權利要求5所述的方法,其特征在于,借助所選出的預測算法進行預測,得到數量與所選出的預測算法的個數對應的預測值,選擇這些所選出的預測算法中在預定時段內平均預測誤差最低的算法的預測結果作為預測輸出,待真實銷量產生后,根據所選用于進行預測輸出的算法的預測值與真實銷量的比較來更新模型效果。
8.根據權利要求1至3中任一項所述的方法,其特征在于,針對參與預測模型訓練運算的每個具體預測模型,從預測模型訓練參數庫中取出針對該預測模型已知的最優參數,然后對所取出的已知最優參數進行隨機試探。
9.根據權利要求8所述的方法,其特征在于,所取出的已知最優參數只涉及最有可能成為最優參數的參數。
10.根據權利要求8所述的方法,其特征在于,在隨機試探時,對于每個所取出的已知最優參數,根據調節步長和調節步數生成新的試探參數。
11.根據權利要求10所述的方法,其特征在于,將試探參數賦予對應的獲選預測模型并結合經清洗后的預測模型訓練數據進行預測模型訓練,得到不同的誤差,將最小誤差對應的參數值更新到預測模型訓練參數庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710272081.4/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





