[發明專利]一種利用訓練數據訓練模型的方法和訓練系統有效
| 申請號: | 201610105840.3 | 申請日: | 2016-02-25 |
| 公開(公告)號: | CN107122327B | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 代斌;李屾;姜曉燕;楊旭;漆遠;褚崴;王少萌;付子豪 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 訓練 數據 模型 方法 系統 | ||
1.一種利用訓練數據訓練模型的方法,所述訓練數據包括多個樣本,每一個樣本包括N個特征,所述多個樣本中對應的特征構成N個特征列,其特征在于,所述利用訓練數據訓練模型的方法包括:
計算每一個特征列的重要程度值,所述重要程度值包括所述特征列的信息值和/或信息增益;
判斷每一個特征列的重要程度值是否小于對應的閾值;
當判斷出所述N個特征列中的M個特征列的重要程度值小于對應的閾值時,將所述M個特征列進行降維處理,生成P個特征列,其中M<N,且P<M;
將重要程度值大于或等于對應的閾值的(N-M)個特征列和降維處理后生成的P個特征列合并,得到(N-M+P)個特征列;以及
將包括所述(N-M+P)個特征列的訓練數據輸入機器學習算法模型,訓練所述機器學習算法模型;
其中所述訓練數據包括廣告CTR數據。
2.如權利要求1所述的訓練模型的方法,其特征在于,當判斷出所述N個特征列中的M個特征列的重要程度值小于對應的閾值時,將所述M個特征列進行降維處理,生成P個特征列的步驟包括:
當判斷出所述N個特征列中的M個特征列的重要程度值小于對應的閾值時,利用minwise Hashing算法對所述M個特征列進行降維處理,生成P個特征列,其中P=k*2b,k和b為算法指定參數。
3.如權利要求1所述的訓練模型的方法,其特征在于,所述訓練數據還包括對應于每一個樣本的標簽值,所述計算每一個特征列的重要程度值的步驟包括:
利用每一個樣本對應的標簽值和所述特征列中的多個特征,計算出所述特征列的信息值和/或信息增益,以所述信息值和/或信息增益作為重要程度值。
4.如權利要求3所述的訓練模型的方法,其特征在于,所述信息值對應的閾值為第一閾值,所述信息增益對應的閾值為第二閾值。
5.如權利要求1所述的訓練模型的方法,其特征在于,所述機器學習算法模型為分類算法模型或回歸算法模型。
6.一種利用訓練數據訓練模型的方法,所述訓練數據包括多個樣本,每一個樣本包括N個特征,所述多個樣本中對應的特征構成N個特征列,其特征在于,所述利用訓練數據訓練模型的方法包括:
計算每一個特征列的重要程度值,所述重要程度值包括所述特征列的信息值和/或信息增益;
判斷每一個特征列的重要程度值是否大于對應的閾值;
當判斷出所述N個特征列中的Q個特征列的重要程度值大于對應的閾值時,將所述Q個特征列進行升維處理,生成R個特征列,其中R>Q,且Q<N;
將升維處理后生成的R個特征列和重要程度值小于或等于對應的閾值的特征列合并;以及
將合并的訓練數據輸入機器學習算法模型,訓練所述機器學習算法模型;
其中所述訓練數據包括廣告CTR數據。
7.如權利要求6所述的訓練模型的方法,其特征在于,當判斷出所述N個特征列中的Q個特征列的重要程度值大于對應的閾值時,將所述Q個特征列進行升維處理,生成R個特征列的步驟包括:
當判斷出所述N個特征列中的Q個特征列的重要程度值大于對應的閾值時,利用minwise Hashing算法對所述Q個特征列進行升維處理,生成R個特征列,其中P=k*2b,k和b為算法指定參數。
8.如權利要求6所述的訓練模型的方法,其特征在于,所述訓練數據還包括對應于每一個樣本的標簽值,所述計算每一個特征列的重要程度值的步驟包括:
利用每一個樣本對應的標簽值和所述特征列中的多個特征,計算出所述特征列的信息值和/或信息增益,以所述信息值和/或信息增益作為重要程度值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610105840.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





