[發明專利]一種正則化的預測方法、裝置、電子設備及介質在審
| 申請號: | 201811285269.3 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109635952A | 公開(公告)日: | 2019-04-16 |
| 發明(設計)人: | 袁大星 | 申請(專利權)人: | 北京奇虎科技有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 房德權 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 正則化 預測 機器學習模型 電子設備 特征集合 訓練樣本 方法和裝置 懲罰因子 技術效果 精度損失 模型訓練 輸入機器 傳統的 申請 學習 | ||
1.一種正則化的預測方法,其特征在于,包括:
獲取特征集合中每個特征的出現頻次;
采用正則化計算,根據所述特征集合生成訓練樣本;其中,所述正則化計算中的懲罰因子與所述每個特征的出現頻次反相關;
將所述訓練樣本輸入機器學習模型進行模型訓練;
通過訓練完成的所述機器學習模型進行預測。
2.如權利要求1所述的方法,其特征在于,所述采用正則化計算,根據所述特征集合生成訓練樣本,包括:
采用正則因子的計算公式∑λiWiWi,根據所述特征集合生成訓練樣本,其中,Wi為所述特征變量,λi為所述懲罰因子,下標i為特征的編號。
3.如權利要求2所述的方法,其特征在于,當所述特征集合為廣告投放后不同地域點擊率特征的集合時,所述特征變量為不同地域的點擊率,所述出現頻次為特征集合中各地域的出現次數。
4.如權利要求2所述的方法,其特征在于,所述采用正則化計算,根據所述特征集合生成訓練樣本,包括:
采用邏輯回歸模型的計算公式和正則因子∑λiwiwi,根據所述特征集合生成訓練樣本,其中,Xi為特征值。
5.如權利要求4所述的方法,其特征在于,當所述特征集合為廣告投放后不同地域點擊率特征的集合時,所述特征值為地域的代碼值,所述特征變量為不同地域的點擊率,所述出現頻次為特征集合中各地域的出現次數。
6.如權利要求5所述的方法,其特征在于,所述通過訓練完成的所述機器學習模型進行預測,包括:接收目標地域的代碼值作為輸入參數,輸出所述目標地域對應的點擊率。
7.如權利要求1所述的方法,其特征在于,所述懲罰因子的計算公式為:
λi=λ/Ni或者λi=λ/Ni2,其中,λi為所述懲罰因子,λ為常規懲罰因子,Ni為所述出現頻次,下標i為特征的編號。
8.一種正則化的預測裝置,其特征在于,包括:
獲取模塊,用于獲取特征集合中每個特征的出現頻次;
生成模塊,用于采用正則化計算,根據所述特征集合生成訓練樣本;其中,所述正則化計算中的懲罰因子與所述每個特征的出現頻次反相關;
訓練模塊,用于將所述訓練樣本輸入機器學習模型進行模型訓練;
預測模塊,用于通過訓練完成的所述機器學習模型進行預測。
9.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現權利要求1-7任一所述的方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現權利要求1-7任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司,未經北京奇虎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811285269.3/1.html,轉載請聲明來源鉆瓜專利網。





