[發明專利]數據模型訓練方法、裝置、電子設備及可讀介質在審
| 申請號: | 201810981379.7 | 申請日: | 2018-08-27 |
| 公開(公告)號: | CN110866605A | 公開(公告)日: | 2020-03-06 |
| 發明(設計)人: | 李海龍 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06F9/50 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 袁禮君;闞梓瑄 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據模型 訓練 方法 裝置 電子設備 可讀 介質 | ||
本申請提供一種數據模型訓練方法、裝置、電子設備及可讀介質,該方法包括:按照預定規則將訓練數據進行分組處理,生成多個分組數據;將所述多個分組數據分別輸入多個數據模型中進行數據訓練,所述多個數據模型運行在多個虛擬容器中;在數據訓練后獲取多個數據模型的多組模型參數;以及通過所述多組模型參數分別確定多個第一數據模型。本申請的數據模型訓練方法、裝置、電子設備及可讀介質,能夠提高算法模型在面對海量樣本時的訓練速度,極大地縮短了算法尋優時間和交付時間,并提高準確率和穩定性。
技術領域
本申請涉及機器學習領域,尤其涉及一種數據模型訓練方法、裝置、電子設備及計算機可讀介質。
背景技術
機器學習是通過機器學習算法,使機器能夠從已有的大量的數據樣本中學習規律,從而當輸入新的數據樣本時,機器可實現智能識別或預測功能。大量研究表明,參與訓練的樣本越多,機器學習算法模型收斂的準確度就相對越高。而現有的機器學習算法在其開發訓練的流程中,通常由算法工程師先在部分少量的樣本上做試驗,不斷改進算法模型,提升算法的準確度以達到業務要求;再由軟件工程師對算法模型進行工程實現并上線,由于在整體樣本上算法的準確度無法保障,經常需要很長時間的線上改進,才能達到一個穩定的狀態。
然而,上述對算法模型的訓練流程具有一定的缺陷,具體如下所述:
(1)由于算法工程師在部分樣本的上做的試驗,基于部分樣本調整的算法參數,在整體樣本未必最優,一般都需要重新調整,但是在海量的整體樣本中,一次參數驗證就可能需要耗費十幾個小時,尋優過程非常緩慢,無法在短時間內找到最優參數。且不能做到參數隨著樣本的增長自動調整。
(2)算法工程師開發的算法代碼依賴了很多科學算法包,由于算法的開發環境和線上環境的差異,會浪費算法工程師和軟件工程師大量重復的勞動,在工程實現中,經常碰到數據傾斜問題和內存溢出問題,算法工程實現較難。
(3)算法工程師開發的算法代碼,一般都是單機運行的,不能在分布式的環境下運行,算法執行效率低。
發明內容
有鑒于此,本申請提供一種數據模型訓練方法、裝置、電子設備及計算機可讀介質,能夠提高算法模型在面對海量樣本時的訓練速度,極大地縮短了算法尋優時間和交付時間,并提高準確率和穩定性。
本申請的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本申請的實踐而習得。
根據本申請實施例的第一方面,提出一種數據模型訓練方法,該方法包括:按照預定規則將訓練數據進行分組處理,生成多個分組數據;將所述多個分組數據分別輸入多個數據模型中進行數據訓練,所述多個數據模型運行在多個虛擬容器中;在數據訓練后獲取多個數據模型的多組模型參數;以及通過所述多組模型參數分別確定多個第一數據模型。
在本申請的一種示例性實施例中,還包括:對原始數據進行預處理以生成所述訓練數據。
在本申請的一種示例性實施例中,對原始數據進行預處理以生成所述訓練數據包括:將原始數據按照時間進行排序以生成所述訓練數據。
在本申請的一種示例性實施例中,按照預定規則將所述訓練數據進行分組處理,生成多個分組數據包括:按照商品類別將所述訓練數據進行分組處理,生成多個分組數據。
在本申請的一種示例性實施例中,按照商品類別將所述訓練數據進行分組處理,生成多個分組數據包括:按照商品類別所述訓練數據進行分組處理,生成多個第一分組數據;以及按照所述第一分組數據的數據量將所述第一分組數據進行分組處理,以生成所述多個分組數據。
在本申請的一種示例性實施例中,還包括:將所述多個分組數據分別輸入多個數據模型中進行數據訓練,所述多個數據模型運行在多個虛擬容器中包括:將所述多個分組數據儲存在多個任務執行單元中;以及將多個任務執行單元與多個虛擬容器進行關聯以進行數據訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810981379.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種墻面清洗車
- 下一篇:一種電池箱試壓檢漏工裝





