[發明專利]在線預測模型的訓練方法、裝置、設備及存儲介質有效
| 申請號: | 202010911608.5 | 申請日: | 2020-09-02 |
| 公開(公告)號: | CN112070226B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 劉昊騁;李原;謝國斌 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06N3/084 | 分類號: | G06N3/084;G06N3/0455;G06N3/048;G06N20/20;G06F18/243;G06Q30/0601 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 在線 預測 模型 訓練 方法 裝置 設備 存儲 介質 | ||
1.一種在線預測模型的訓練方法,包括:
獲取用戶的離線樣本特征和在線樣本特征,所述離線樣本特征包括用戶畫像特征;
基于用戶的離線樣本特征和在線樣本特征,離線訓練得到離線推薦模型,所述離線推薦模型包括XGBoost模型或WideDeep模型,所述離線推薦模型為XGBoost時,基于用戶的離線樣本特征和在線樣本特征,離線訓練得到離線推薦模型包括:將所述離線樣本特征輸入至XGBoost,生成所述離線樣本特征的特征編碼;對所述在線樣本特征進行特征編碼,將所述在線樣本特征的特征編碼與離線樣本特征的組合編碼進行拼接;將拼接結果輸入至邏輯回歸器中進行預測訓練,得到訓練好的離線推薦模型;以及所述離線推薦模型為WideDeep模型時,所述基于用戶的離線樣本特征和在線樣本特征,離線訓練得到離線推薦模型包括:將用戶的所述離線樣本特征輸入至Deep層;所述在線樣本特征經特征工程后輸入至Wide層;將Wide層特征和Deep層特征拼接后輸入至邏輯回歸器中進行預測訓練,得到訓練好的離線推薦模型;
獲取用戶的最新在線特征,以及基于用戶的所述最新在線特征,在線訓練得到在線學習模型,包括:使用在線機器學習算法調整所述最新在線特征,使得所述最新在線特征適應于作為在線樣本特征進行特征編碼,所述在線學習模型用于使得所述最新在線特征適應于作為在線樣本特征輸入至已經訓練好的離線推薦模型;以及調整Wide層參數,使得所述最新在線特征適應于作為在線樣本特征輸入至Wide層;
將所述離線推薦模型同步至線上,以及將所述在線學習模型輸出的所述最新在線特征輸入至所述離線推薦模型,生成在線預測模型。
2.根據權利要求1所述的方法,所述方法還包括:
將用戶的所述最新在線特征同步至離線特征庫,其中,所述離線特征庫存儲有用戶的所述離線樣本特征。
3.根據權利要求1所述的方法,所述方法還包括:
根據用戶在線實時行為確定用戶的在線樣本特征,其中,所述用戶在線實時行為包括用戶在線操作行為。
4.根據權利要求1所述的方法,所述方法還包括:
根據所述在線預測模型的輸出確定推薦系統中的推薦排序或點擊率預估。
5.一種在線預測模型的訓練裝置,包括:
獲取單元,被配置為獲取用戶的離線樣本特征和在線樣本特征,所述離線樣本特征包括用戶畫像特征;
離線訓練單元,被配置為基于用戶的離線樣本特征和在線樣本特征,離線訓練得到離線推薦模型,所述離線推薦模型包括XGBoost模型或WideDeep模型;所述離線推薦模型為XGBoost模型時,所述離線訓練單元被配置為:將所述離線樣本特征輸入至XGBoost,生成所述離線樣本特征的特征編碼;對所述在線樣本特征進行特征編碼,將所述在線樣本特征的特征編碼與離線樣本特征的組合編碼進行拼接;將拼接結果輸入至邏輯回歸器中進行預測訓練,得到訓練好的離線推薦模型;以及所述離線推薦模型為WideDeep模型時,所述離線訓練單元被配置為:將用戶的所述離線樣本特征輸入至Deep層;所述在線樣本特征經特征工程后輸入至Wide層;將Wide層特征和Deep層特征拼接后輸入至邏輯回歸器中進行預測訓練,得到訓練好的離線推薦模型;
在線訓練單元,被配置為獲取用戶的最新在線特征,以及基于用戶的所述最新在線特征,在線訓練得到在線學習模型,所述在線學習模型用于使得所述最新在線特征適應于作為在線樣本特征輸入至已經訓練好的離線推薦模型;所述在線訓練單元還被配置為:使用在線機器學習算法(FTRL)調整所述最新在線特征,使得所述最新在線特征適應于作為在線樣本特征進行特征編碼;所述在線訓練單元還被配置為:調整Wide層參數,使得所述最新在線特征適應于作為在線樣本特征輸入至Wide層;
模型生成單元,被配置為將所述離線推薦模型同步至線上,以及將所述在線學習模型輸出的所述最新在線特征輸入至所述離線推薦模型,生成在線預測模型。
6.根據權利要求5所述的裝置,所述裝置還包括:
數據同步單元,被配置為將用戶的所述最新在線特征或在線樣本特征同步至離線特征庫,其中,所述離線特征庫存儲有用戶的所述離線樣本特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010911608.5/1.html,轉載請聲明來源鉆瓜專利網。





