[發(fā)明專利]一種推薦模型訓(xùn)練方法及裝置在審
| 申請?zhí)枺?/td> | 202210055661.9 | 申請日: | 2022-01-18 |
| 公開(公告)號: | CN114428880A | 公開(公告)日: | 2022-05-03 |
| 發(fā)明(設(shè)計)人: | 賀甜甜;胡元元 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/735 | 分類號: | G06F16/735;G06F16/738;G06F16/783 |
| 代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 項京;高鶯然 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 推薦 模型 訓(xùn)練 方法 裝置 | ||
本公開提供了一種推薦模型訓(xùn)練方法及裝置,涉及計算機技術(shù)領(lǐng)域,尤其涉及大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)領(lǐng)域。具體實現(xiàn)方案為:獲取多目標(biāo)融合推薦模型;在驗證參數(shù)的基礎(chǔ)上,疊加多組不同的參數(shù)擾動,得到多組探索參數(shù);獲取每組探索參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)和推薦視頻場景數(shù)據(jù),并獲取驗證參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)和推薦視頻場景數(shù)據(jù);計算用戶反饋獎勵值和視頻推薦場景獎勵值;針對每組探索參數(shù),基于用戶反饋獎勵值和視頻推薦場景獎勵值計算總獎勵值;確定優(yōu)選探索參數(shù),并根據(jù)優(yōu)選探索參數(shù)對應(yīng)的參數(shù)擾動調(diào)整模型參數(shù)。最終在保障視頻推薦場景符合預(yù)期目標(biāo)的情況下,提升用戶的觀看時長和觀看體驗,且無需人為制定復(fù)雜的偏序規(guī)則,降低實現(xiàn)復(fù)雜度。
技術(shù)領(lǐng)域
本公開涉及計算機技術(shù)領(lǐng)域,尤其涉及大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)領(lǐng)域。
背景技術(shù)
視頻流推薦系統(tǒng)中的排序模塊通常針對點擊率、完播率、互動數(shù)目等多目標(biāo)建模優(yōu)化,多目標(biāo)的融合成為多目標(biāo)建模后重要的一環(huán),融合不同目標(biāo)進(jìn)而對視頻資源進(jìn)行打分排序,直接決定最終的推薦結(jié)果。
發(fā)明內(nèi)容
本公開提供了一種推薦模型訓(xùn)練方法及裝置。
根據(jù)本公開的一方面,提供了一種推薦模型訓(xùn)練方法,包括:
獲取多目標(biāo)融合推薦模型,所述多目標(biāo)融合推薦模型包含多個待調(diào)整的模型參數(shù);
將當(dāng)前的模型參數(shù)確定為驗證參數(shù),在所述驗證參數(shù)的基礎(chǔ)上,疊加多組不同的參數(shù)擾動,得到多組探索參數(shù);
獲取每組探索參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)和推薦視頻場景數(shù)據(jù),并獲取所述驗證參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)和推薦視頻場景數(shù)據(jù);
針對每組探索參數(shù),根據(jù)該組探索參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)和所述驗證參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)計算用戶反饋獎勵值,并根據(jù)該組探索參數(shù)對應(yīng)的推薦視頻場景數(shù)據(jù)和所述驗證參數(shù)對應(yīng)的推薦視頻場景數(shù)據(jù)計算視頻推薦場景獎勵值;
針對每組探索參數(shù),基于該組探索參數(shù)對應(yīng)的用戶反饋獎勵值和視頻推薦場景獎勵值計算總獎勵值;
根據(jù)所述總獎勵值確定優(yōu)選探索參數(shù),并根據(jù)所述優(yōu)選探索參數(shù)對應(yīng)的參數(shù)擾動調(diào)整所述模型參數(shù)。
根據(jù)本公開的一方面,提供了一種視頻推薦方法,包括:
確定目標(biāo)用戶和候選視頻;
根據(jù)所述目標(biāo)用戶和每一候選視頻,確定融合因子和融合特征;
將所述融合因子和融合特征輸入預(yù)先訓(xùn)練的多目標(biāo)融合推薦模型,得到每一候選視頻的推薦分?jǐn)?shù);
基于所述推薦分?jǐn)?shù)為所述目標(biāo)用戶推薦候選視頻。
根據(jù)本公開的一方面,提供了一種推薦模型訓(xùn)練裝置,包括:
第一獲取模塊,用于獲取多目標(biāo)融合推薦模型,所述多目標(biāo)融合推薦模型包含多個待調(diào)整的模型參數(shù);
擾動模塊,用于將當(dāng)前的模型參數(shù)確定為驗證參數(shù),在所述驗證參數(shù)的基礎(chǔ)上,疊加多組不同的參數(shù)擾動,得到多組探索參數(shù);
第二獲取模塊,用于獲取每組探索參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)和推薦視頻場景數(shù)據(jù),并獲取所述驗證參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)和推薦視頻場景數(shù)據(jù);
第一計算模塊,針對每組探索參數(shù),根據(jù)該組探索參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)和所述驗證參數(shù)對應(yīng)的用戶反饋數(shù)據(jù)計算用戶反饋獎勵值,并根據(jù)該組探索參數(shù)對應(yīng)的推薦視頻場景數(shù)據(jù)和所述驗證參數(shù)對應(yīng)的推薦視頻場景數(shù)據(jù)計算視頻推薦場景獎勵值;
第二計算模塊,用于針對每組探索參數(shù),基于該組探索參數(shù)對應(yīng)的用戶反饋獎勵值和視頻推薦場景獎勵值計算總獎勵值;
調(diào)整模塊,用于根據(jù)所述總獎勵值確定優(yōu)選探索參數(shù),并根據(jù)所述優(yōu)選探索參數(shù)對應(yīng)的參數(shù)擾動調(diào)整所述模型參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210055661.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





