[發明專利]模型訓練方法、裝置及計算機設備有效
| 申請號: | 202011462461.2 | 申請日: | 2020-12-11 |
| 公開(公告)號: | CN112560938B | 公開(公告)日: | 2023-08-25 |
| 發明(設計)人: | 張楊;劉方奇 | 申請(專利權)人: | 上海嗶哩嗶哩科技有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F16/182;G06Q30/0251 |
| 代理公司: | 北京英特普羅知識產權代理有限公司 11015 | 代理人: | 鄧小玲;王勇 |
| 地址: | 200433 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 訓練 方法 裝置 計算機 設備 | ||
本申請公開了一種模型訓練方法、裝置及計算機設備,該方法包括:獲取離線用戶數據集,將所述離線用戶數據集有序地存儲到目標存儲單元;接收目標時間區段的離線用戶數據拉取請求;根據所述離線用戶數據拉取請求在所述目標存儲單元中查詢出對應于所述目標時間區段的目標離線用戶數據集;將所述目標離線用戶數據集從所述目標存儲單元中拉取出來,并根據所述目標離線用戶數據集生成對應的訓練數據用于對預設的模型進行模型訓練。本申請還提供一種計算機可讀存儲介質。本申請能夠縮短模型訓練過程中對于訓練數據的預處理的耗時,提升模型訓練效率。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種模型訓練方法、裝置及計算機設備。
背景技術
隨著互聯網技術的發展,越來越多的用戶選擇在網上瀏覽、挑選或者購買自己需要的商品。隨著商品數目和種類的增多,用戶往往需要花費大量的時間才能找到自己需要的商品。為了解決這個問題,各個電商平臺都不同程度地采用各種形式的推薦技術向用戶進行商品推薦。其中,為了達到向用戶及時推薦各種有用信息又盡量避免推薦無用信息的目的,通常會先根據用戶信息構建出用戶的用戶特征數據;然后再將用戶的用戶特征數據輸入到初始點擊率預估模型,從而訓練出能夠預估出不同的用戶對于推薦數據的點擊概率的點擊率預估模型。
一般而言,對于推薦模型,比如點擊率預估模型,可以通過獲取在線數據進行實時訓練,或者通過離線數據進行離線訓練。離線訓練過程中,需要對離線數據進行整理和排序,提取出隨時間變化而變化的用戶特征數據,從而才能訓練出準確度較高的推薦模型。然而,現有技術中的在模型訓練的過程中對于離線數據的預處理方法導致模型訓練過程耗時較長,效率較低。
發明內容
本申請提出一種模型訓練方法、裝置及計算機設備,能夠解決上述的模型的離線訓練過程耗時長、效率低的問題。
首先,為實現上述目的,本申請提供一種模型訓練方法,所述方法包括:
獲取離線用戶數據集,將所述離線用戶數據集有序地存儲到目標存儲單元;接收目標時間區段的離線用戶數據拉取請求;根據所述離線用戶數據拉取請求在所述目標存儲單元中查詢出對應于所述目標時間區段的目標離線用戶數據集;將所述目標離線用戶數據集從所述目標存儲單元中拉取出來,并根據所述目標離線用戶數據集生成對應的訓練數據用于對預設的模型進行模型訓練。
在一個例子中,所述目標存儲單元為Hadoop分布式文件系統。
在一個例子中,所述將所述離線用戶數據集有序地存儲到目標存儲單元包括:識別出所述離線用戶數據集中的每一條離線用戶數據的產生時間;根據所述產生時間的先后順序將所述離線用戶數據集存儲到所述目標存儲單元。
在一個例子中,當將所述離線用戶數據集包括相同產生時間的N條離線用戶數據時,所述根據所述產生時間的先后順序將所述離線用戶數據集存儲到所述目標存儲單元包括:在所述目標存儲單元中建立N個分區;通過控制存儲速度的方式將同一產生時間的N條離線用戶數據分別存儲到所述N個分區的同一個排序位置。
在一個例子中,所述根據所述離線用戶數據拉取請求在所述目標存儲單元中查詢出對應于所述目標時間區段的目標離線用戶數據集包括:對所述目標存儲單元中的每一條離線用戶數據抓取快照維表,所述快照維表包括離線用戶數據的產生時間;查找出所述產生時間處于所述離線用戶數據拉取請求對應的時間范圍的所有快照維表,記錄為快照維表集;將所述快照維表集對應的所有離線用戶數據記錄為所述目標離線用戶數據。
在一個例子中,所述對所述目標存儲單元中的每一條離線用戶數據抓取快照維表包括:根據預設的數據格式識別出每一條離線用戶數據中的目標字段數據;將每一條離線用戶數據中的所述目標字段數據截取出來作為所述每一條離線用戶數據對應的快照維表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海嗶哩嗶哩科技有限公司,未經上海嗶哩嗶哩科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011462461.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智慧型機器人自動存取密集架
- 下一篇:一種激光熔注強化鐵合金表面的方法





