[發明專利]一種機器學習系統的訓練方法和訓練系統在審
| 申請號: | 201610113716.1 | 申請日: | 2016-02-29 |
| 公開(公告)號: | CN107133190A | 公開(公告)日: | 2017-09-05 |
| 發明(設計)人: | 周俊 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F15/18 | 分類號: | G06F15/18 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 蘇培華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器 學習 系統 訓練 方法 | ||
技術領域
本申請涉及大數據處理領域,尤其涉及一種機器學習系統的訓練方法和訓練系統。
背景技術
在如今的大數據時代,互聯網公司獲取超大規模數據已非常容易。據不完全統計,谷歌2012年每天30億query/300億廣告,臉書用戶2013年每天分享43億內容,阿里巴巴2015雙十一當天就有超過7億筆交易。這些公司通過機器學習系統,去挖掘數據里面的金礦,包括用戶興趣/行為/習慣等等。
機器學習系統設計為模仿人腦的神經網絡,用于預測用戶的行為。在機器學習系統上線之前,需要通過大規模的數據進行訓練。然而在訓練過程中,大規模的數據必然要求大規模的機器資源才能有效處理,例如騰訊的廣告數據,都是PB級別,必然要用到千臺機器以上,這對大部分公司來說,都是個巨大的成本。
為了降低成本,提高機器學習系統的效率,通常的處理方式是通過隨機樣本采樣的手段減少機器學習系統處理的數據量。隨機樣本采樣就是以一定概率丟棄樣本,例如對每一個樣本隨機生成1個0-1范圍內的浮點數,當浮點數大于閾值時則直接丟棄該樣本。然而,隨機丟棄樣本的方式會丟棄大量的有用數據,損害機器學習系統的訓練效果,降低預測的精度。
發明內容
鑒于上述問題,提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的機器學習系統的訓練方法和訓練系統。
為解決上述問題,本申請一實施例公開一種機器學習系統的訓練方法,利用多個樣本數據對機器學習系統進行訓練,所述訓練方法包括:
獲得多個樣本集合,每個樣本集合包括對應取樣時間段內的樣本數據;
根據每一個樣本集合對應的采樣時間段,設置該樣本集合對應的采樣率;
獲得多個根據采樣率采樣后的樣本集合;
分別確定所述多個采樣后的樣本集合的重要程度值;
利用該重要程度值修正所述多個采樣后的樣本集合中的每一個樣本數據,獲得修正后的樣本數據;
將每一個所述修正后的樣本數據輸入機器學習系統,對該機器學習系統進行訓練。
本申請另一實施例公開一種機器學習系統的訓練系統,利用多個樣本數據對機器學習系統進行訓練,其特征在于,所述訓練系統包括:
第一獲取模塊,用于獲得多個樣本集合,每個樣本集合包括對應取樣時間段內的樣本數據;
采樣率設置模塊,用于根據每一個樣本集合對應的采樣時間段,設置該樣本集合對應的采樣率;
第二獲取模塊,用于獲得多個根據采樣率采樣后的樣本集合;
重要程度值確定模塊,用于分別設置所述多個采樣后的樣本集合的重要程度值;
樣本數據修正模塊,用于利用該重要程度值修正所述多個采樣后的樣本集合中的每一個樣本數據,獲得修正后的樣本數據;
訓練模塊,用于將每一個所述修正后的樣本數據輸入機器學習系統,對該機器學習系統進行訓練。
本申請實施例至少具有以下優點:本申請實施例公開一種機器學習系統的訓練方法和訓練系統,在將樣本數據輸入機器學習系統之前對樣本數據進行處理,包括獲取根據取樣時間段劃分的樣本集合、根據取樣時間段設置每個樣本集合的采樣率、根據采樣率進行采樣、確定采樣后樣本集合的重要程度值以及利用該重要程度值將樣本數據進行修正,并將樣本數據輸入機器學習系統進行訓練,在降低機器學習系統處理的數據量的同時保證了重要數據的采用率和利用程度,在減輕機器的內存資源需求的同時盡量降低對機器學 習系統的學習效果的影響。
附圖說明
圖1是本申請第一實施例的機器學習系統的訓練方法的流程圖。
圖2是本申請第二實施例的機器學習系統的訓練方法的流程圖。
圖3是本申請第三實施例的機器學習系統的訓練方法的流程圖。
圖4是本申請第四實施例的機器學習系統的訓練系統的方框圖。
圖5是本申請第五實施例的機器學習系統的訓練系統的方框圖。
圖6是本申請第六實施例的機器學習系統的訓練系統的方框圖。
具體實施方式
下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├绢I域普通技術人員所獲得的所有其他實施例,都屬于本申請保護的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610113716.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種內存管理方法及裝置
- 下一篇:一種基于大數據的知識點掌握概率計算方法





