[發明專利]模型訓練數據的選取方法及裝置在審
| 申請號: | 202011027798.0 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112257756A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 宋振;謝蔚;唐亮;靳一 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/20 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 任亞娟 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 數據 選取 方法 裝置 | ||
本發明公開了一種模型訓練數據的選取方法及裝置。其中,該方法包括:根據樣本數據集中樣本數據的特征值以及標簽,確定樣本數據對應的綜合得分;根據綜合得分對樣本數據進行分組,以得到多個樣本數據組,其中,樣本數據組包括對應的分組標識;根據分組標識在對應的樣本數據組中進行樣本數據的采樣,以得到目標訓練數據;將目標訓練數據輸入至待訓練模型中進行訓練。本發明解決了由于相關技術中模型的訓練過程中隨機選取訓練數據,而導致過擬合、模型預測結果準確度低的技術問題。
技術領域
本發明涉及數據預測技術領域,具體而言,涉及一種模型訓練數據的選取方法及裝置。
背景技術
在相關技術中,支撐采購建議,庫內加工、補貨,原材料加工,倉配履約等供應鏈業務場景,更好的實現數據賦能業務,降低成本,提升客戶體驗,設立了預測平臺組,向企業中的事業部輸出包括銷量預測、運力預測、勞力預測等不同顆粒度的預測數據。大部分業務場景下的需求預測問題都可以轉化為“特定條件下的商品銷量預測”問題,以智能訂貨項目為例,該項目主要是為了向采購人員提供采購計算建議量服務,實現采購半自動下單。所以,該項目需要預測算法提供指定時間范圍里某件商品的需求量,即提供“天、sku(StockKeeping Unit,庫存量單位)”粒度的銷量預測結果。
當前支撐該預測數據項目的主要算法是XGBboost(提升樹可擴展的機器學習系統)。當前快驢To B(To Business,面向企業銷售產品)業務需要預測sku數量交大,相對ToC(To Consumer,直接面向消費者銷售產品)業務場景相對簡單,因此當前的預測方案是利用每個場景中每個商品sku的樣本數據,單獨訓練場景中每個商品對應的XGBoost模型。因為這種結構避免了其他商品sku的特征數據對算法的干擾,因此該方案比以倉庫或品類為單位建立算法模型,可以得到更準確的預測結果。商品sku的數據分布有很大差異,比如對于高銷商品的sku通常會有幾百條樣本數據,而一般銷量商品的sku或者長尾商品可能只有幾十條樣本數據。在針對壞案例badcase分析的過程中發現以下問題:
(1)雖然在最小粒度(sku)上建模可以迅速優化某些案例case,但因為所有模型共用一套超參數,對于樣本稀疏的sku會出現過擬合的問題;
(2)對于數據量較大的商品的sku,還是存在該sku內部“異常”數據對預測值的干擾問題,這種異常并非針對某個特征值,而是指該樣本點相對于整體的相似程度較低。例如:某些商品屬于季節性商品,可能會在一定期間內具有更高的銷量,但是因為整體樣本數據(取過去540天)對這種周期包含的不多,同時其他時間段的促銷或其他特征(如天氣、節假日等)導致的銷量提升也會使模型對周期的判斷造成干擾,導致模型降低了周期特征重要性,因此最終得到的預測結果很可能趨向于取整體數據的平均銷量,沒有很好的反映出重要特征的影響;
通過增加模型容量和數據增強可以一定程度上優化問題,但代價是模型訓練時長增加,也有可能引入過擬合問題。以上問題本質是大部分基于特征的機器學習模型對樣本數據的采樣是隨機的,以XGBoost為例,雖然模型在生成新的CART樹的時候會抽取部分特征列和樣本點以起到減小過擬合的作用,但是選取依然是隨機的,沒有規律性。對于其他訓練模型同樣存在該問題。
針對上述的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種模型訓練數據的選取方法及裝置,以至少解決由于相關技術中模型的訓練過程中隨機選取訓練數據,而導致過擬合、模型預測結果準確度低的技術問題。
根據本發明實施例的一個方面,提供了一種模型訓練數據的選取方法,包括:根據樣本數據集中樣本數據的特征值以及標簽,確定所述樣本數據對應的綜合得分;根據所述綜合得分對所述樣本數據進行分組,以得到多個樣本數據組,其中,所述樣本數據組包括對應的分組標識;根據所述分組標識在對應的樣本數據組中進行樣本數據的采樣,以得到目標訓練數據;將所述目標訓練數據輸入至待訓練模型中進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011027798.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:混砂機構及3D打印機
- 下一篇:一種無線耳機充電盒上膠裝磁鐵裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





