[發明專利]一種利用訓練數據訓練模型的方法和訓練系統有效
| 申請號: | 201610105840.3 | 申請日: | 2016-02-25 |
| 公開(公告)號: | CN107122327B | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 代斌;李屾;姜曉燕;楊旭;漆遠;褚崴;王少萌;付子豪 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 訓練 數據 模型 方法 系統 | ||
本申請公開一種利用訓練數據訓練模型的方法和系統,所述訓練數據包括多個樣本,每一個樣本包括N個特征,所述多個樣本中對應的特征構成N個特征列,所述訓練方法包括:計算每一個特征列的重要程度值;判斷每一個特征列的重要程度值是否小于對應的閾值;當判斷出所述N個特征列中的M個特征列的重要程度值小于對應的閾值時,將所述M個特征列進行降維處理,生成P個特征列,其中M<N,且P<M;將重要程度值大于或等于對應的閾值的(N?M)個特征列和降維處理后生成的P個特征列合并;以及將合并后的所述多個樣本輸入機器學習算法模型,訓練所述機器學習算法模型。本申請實施例能夠對重要特征和輔助特征進行區別處理,達到訓練特征參數可控,并提高模型訓練的準確性的目的。
技術領域
本申請涉及數據處理領域,尤其涉及一種利用訓練數據訓練模型的方法和訓練系統。
背景技術
在數據挖掘的業務場景中,經常需要利用大規模的訓練數據訓練機器學習算法模型,進行分類或者回歸計算。只有用大量數據訓練該機器學習算法模型之后,才有可能獲得預測精度較高的該算法模型,進而才能在后續根據輸入的數據進行各種行為的預測。
在當前互聯網的環境下,訓練數據的數據規模經常達到數十億甚至上千億,每個訓練數據的特征規模隨著業務擴展,也會到一個非常大的數量級。
以CTR(Click-Through Rate)預估為例,CTR預估是互聯網計算廣告中的關鍵環節,預估準確性直接影響公司廣告收入。CTR預估使用特定的算法模型,輸入該算法模型進行計算的訓練數據可能達到千億規模,每個訓練數據的特征維度也可能達到百億的規模。如此龐大的規模輸入算法模型中,容易造成機器學習算法模型的計算難度增大、效率降低。
為了減少計算難度并提高計算的效率,常規的解決方案是使用并行計算的方式處理訓練數據,例如使用LR(Logistic Regression)模型進行處理。LR是廣義線性模型,可以進行并行化處理,即將原本海量的訓練數據分發到N個不同的計算處理器(worker)中計算,每個計算處理器處理的數據量為總數據量的1/N。
利用上述方式可以對一定數量級的數據進行處理,但是對于百億特征*千億數據的規模下,數據總量可能超過PB級別,超出了一般計算集群的計算范圍。即使可以利用超大規模的計算集群進行計算,得到最終最優結果的時間也非常長,導致運行效率低,滿足不了業務的更新需求。
另外,在一種相反的情況下,訓練數據可能會存在維度過低、數據量過小的問題,同樣影響機器學習模型的訓練精度。
發明內容
鑒于上述問題,提出了本申請實施例以便提供一種克服上述問題或者至少部分地解決上述問題的利用訓練數據訓練模型的方法和訓練系統。
為解決上述問題,本申請一實施例公開一種利用訓練數據訓練模型的方法,所述訓練數據包括多個樣本,每一個樣本包括N個特征,所述多個樣本中對應的特征構成N個特征列,所述訓練方法包括:
計算每一個特征列的重要程度值;
判斷每一個特征列的重要程度值是否小于對應的閾值;
當判斷出所述N個特征列中的M個特征列的重要程度值小于對應的閾值時,將所述M個特征列進行降維處理,生成P個特征列,其中M<N,且P<M;
將重要程度值大于或等于對應的閾值的(N-M)個特征列和降維處理后生成的P個特征列合并,得到(N-M+P)個特征列;以及
將包括所述(N-M+P)個特征列的訓練數據輸入機器學習算法模型,訓練所述機器學習算法模型。
本申請另一實施例公開一種利用訓練數據訓練模型的方法,所述訓練數據包括多個樣本,每一個樣本包括N個特征,所述多個樣本中對應的特征構成N個特征列,所述訓練方法包括:
計算每一個特征列的重要程度值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610105840.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





