[發明專利]一種訓練樣本處理方法、裝置、設備及存儲介質在審
| 申請號: | 202110197693.8 | 申請日: | 2021-02-22 |
| 公開(公告)號: | CN112925947A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 胡志勇;孟蕊;張冠星 | 申請(專利權)人: | 百果園技術(新加坡)有限公司 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06F16/78;G06Q30/02 |
| 代理公司: | 北京澤方譽航專利代理事務所(普通合伙) 11884 | 代理人: | 陳照輝 |
| 地址: | 巴西班讓路楓樹*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 樣本 處理 方法 裝置 設備 存儲 介質 | ||
本申請實施例公開一種訓練樣本處理方法、裝置、設備及存儲介質。方法包括:獲取打點事件數據,通過流計算引擎對打點事件數據進行解析,解析出打點事件對應的推薦內容的用戶反應數據,并將用戶反應數據作為對應打點事件數據的標簽;獲取推薦內容對應的特征數據,基于預設的第一預處理規則,通過流計算引擎對特征數據進行預處理;將打點事件數據存儲至分布式列式數據庫中,并將打點事件數據的標簽和對應的預處理特征數據存儲至打點事件數據的關聯字段中;在打點事件數據的標簽全部存儲至對應的關聯字段后,將打點事件數據和關聯字段中的數據作為訓練樣本,并將訓練樣本存儲至分布式消息系統或分布式文件系統中,以解決訓練樣本不能實時產出的問題。
技術領域
本申請實施例涉及數據處理技術領域,尤其涉及一種訓練樣本處理方法、裝置、設備及存儲介質。
背景技術
在短視頻推薦、直播推薦和廣告等場景下,推薦內容的時效性日益重要。在推薦系統中,時效性對推薦效果起著非常重要的作用,推薦系統的模型更新速度越快,越能反應用戶最近的習慣,越能反應最新的流行趨勢,越能給用戶推薦當前更感興趣的內容。推薦系統的時效性由兩大部分組成,一個是特征的時效性,另一個則是模型的時效性。
為了實現時效性較高的內容推薦,模型需要快速訓練,特征需要實時產生,以實現推薦鏈路需要快速運轉。為實現模型的快速訓練,現有技術中可以通過線上學習技術,對模型進行線上訓練,以提高模型訓練速度。但是線上訓練模型的訓練樣本需要實時產出,需要對大數據進行實時處理,以實現訓練樣本的實時產出。目前的大數據實時處理技術基礎比較完善,一些優秀的流處理平臺日益成熟,可以通過流處理平臺提供的流計算引擎,實現實時數據的處理。但目前的實時數據處理技術還沒有應用到實時訓練樣本,即傳統的訓練樣本產出手段無法實現訓練樣本的實時產出。
發明內容
本申請實施例提供一種訓練樣本處理方法、裝置、設備及存儲介質,能夠解決訓練樣本不能實時產出的問題,保證了推薦模型和推薦系統的時效性。
在第一方面,本申請實施例提供了一種訓練樣本處理方法,包括:
獲取打點事件數據,通過流計算引擎對所述打點事件數據進行解析,解析出打點事件對應的推薦內容的用戶反應數據,并將所述用戶反應數據作為對應打點事件數據的標簽;
獲取所述推薦內容對應的特征數據,基于預設的第一預處理規則,通過所述流計算引擎對所述特征數據進行預處理;
將所述打點事件數據存儲至分布式列式數據庫中,并將所述打點事件數據的標簽和對應的預處理特征數據存儲至所述打點事件數據的關聯字段中;
在所述打點事件數據的標簽全部存儲至對應的關聯字段后,將所述打點事件數據和關聯字段中的數據作為訓練樣本,并將所述訓練樣本存儲至所述分布式消息系統或分布式文件系統中。
在第二方面,本申請實施例提供了一種訓練樣本處理裝置,包括:
標簽解析模塊,被配置為獲取打點事件數據,通過流計算引擎對所述打點事件數據進行解析,解析出打點事件對應的推薦內容的用戶反應數據,并將所述用戶反應數據作為對應打點事件數據的標簽;
特征預處理模塊,被配置為獲取所述推薦內容對應的特征數據,基于預設的第一預處理規則,通過所述流計算引擎對所述特征數據進行預處理,所述打點事件數據和所述特征數據存儲于分布式消息系統中;
數據匯總模塊,被配置為將所述打點事件數據存儲至分布式列式數據庫中,并將所述打點事件數據的標簽和對應的預處理特征數據存儲至所述打點事件數據的關聯字段中;
訓練樣本生成模塊,被配置為在所述打點事件數據的標簽全部存儲至對應的關聯字段后,將所述打點事件數據和關聯字段中的數據作為訓練樣本,并將所述訓練樣本存儲至所述分布式消息系統或分布式文件系統中。
在第三方面,本申請實施例提供了一種電子設備,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百果園技術(新加坡)有限公司,未經百果園技術(新加坡)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110197693.8/2.html,轉載請聲明來源鉆瓜專利網。





