[發(fā)明專利]一種改進(jìn)嵌入層的廣告點(diǎn)擊率預(yù)測(cè)模型訓(xùn)練方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111627057.0 | 申請(qǐng)日: | 2021-12-28 |
| 公開(kāi)(公告)號(hào): | CN114282669A | 公開(kāi)(公告)日: | 2022-04-05 |
| 發(fā)明(設(shè)計(jì))人: | 沈?qū)W利;韓倩雯 | 申請(qǐng)(專利權(quán))人: | 遼寧工程技術(shù)大學(xué) |
| 主分類號(hào): | G06N3/08 | 分類號(hào): | G06N3/08;G06N3/04;G06K9/62 |
| 代理公司: | 北京華夏正合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11017 | 代理人: | 韓登營(yíng) |
| 地址: | 123000 遼*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 改進(jìn) 嵌入 廣告 點(diǎn)擊率 預(yù)測(cè) 模型 訓(xùn)練 方法 | ||
本發(fā)明提供了一種改進(jìn)嵌入層的廣告點(diǎn)擊率預(yù)測(cè)模型訓(xùn)練方法,包括獲取預(yù)處理后的數(shù)據(jù)集;通過(guò)改進(jìn)的嵌入層有效的將高維稀疏的數(shù)據(jù)映射為低維特征數(shù)據(jù);通過(guò)邏輯回歸對(duì)低階顯性特征進(jìn)行處理,豐富對(duì)低階顯性特征表達(dá)的缺失,將低維特征數(shù)據(jù)輸入到特征提取網(wǎng)絡(luò),提取二階特征組合信息;將低階部分訓(xùn)練結(jié)果與高階訓(xùn)練結(jié)果通過(guò)函數(shù)歸一化得到最終預(yù)測(cè)值。本發(fā)明的改進(jìn)嵌入層的廣告點(diǎn)擊率預(yù)測(cè)模型訓(xùn)練方法解決了廣告點(diǎn)擊率預(yù)測(cè)模型對(duì)特征關(guān)注不足且訓(xùn)練速度慢的問(wèn)題,在算法的準(zhǔn)確率及效率方面提升推薦效果。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)工程的技術(shù)領(lǐng)域,尤其涉及一種改進(jìn)嵌入層的廣告點(diǎn)擊率預(yù)測(cè)模型訓(xùn)練方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)+的迅速發(fā)展,諸如互聯(lián)網(wǎng)廣告等悄然興起,為了更精準(zhǔn)地預(yù)測(cè)廣告的投放,點(diǎn)擊率(Click Through Rate,簡(jiǎn)稱CTR)作為預(yù)測(cè)廣告投放的重要標(biāo)準(zhǔn)之一,它在廣告系統(tǒng)等領(lǐng)域發(fā)揮著至關(guān)重要的作用。
傳統(tǒng)的CTR預(yù)估模型,都是針對(duì)特征的一階顯性信息和二階特征交互信息進(jìn)行研究,高階特征交互都是通過(guò)人類專家手動(dòng)標(biāo)記工作量大且耗時(shí);隨著深度學(xué)習(xí)的快速發(fā)展,多層神經(jīng)網(wǎng)絡(luò)通過(guò)embedding+MLP的形式應(yīng)用在深度學(xué)習(xí)CTR模型中,深入的挖掘更高階的特征交互信息,但是對(duì)低階特征交互關(guān)注不足。為兼顧兩者對(duì)特征交互的優(yōu)點(diǎn),提出了DNN和低階特征組合的經(jīng)典點(diǎn)擊率預(yù)估模型;此外,注意力機(jī)制能夠通過(guò)對(duì)特征加權(quán),有效的過(guò)濾無(wú)用信息加快收斂速度,在現(xiàn)有經(jīng)典模型中取得了很好的效果,證明注意力機(jī)制與深度學(xué)習(xí)CTR模型相結(jié)合很有前景。
現(xiàn)有技術(shù)中的廣告點(diǎn)擊率預(yù)測(cè)方法不能很好的利用稀疏樣本數(shù)據(jù),因而相關(guān)技術(shù)中的廣告點(diǎn)擊率預(yù)測(cè)方法通常存在預(yù)測(cè)結(jié)果不準(zhǔn)確的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
針對(duì)上述技術(shù)問(wèn)題,本發(fā)明的目的在于提供一種改進(jìn)嵌入層的廣告點(diǎn)擊率預(yù)測(cè)模型訓(xùn)練方法,解決了廣告點(diǎn)擊率預(yù)測(cè)模型對(duì)特征關(guān)注不足且訓(xùn)練速度慢的問(wèn)題,在算法的準(zhǔn)確率及效率方面提升推薦效果。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種改進(jìn)嵌入層的廣告點(diǎn)擊率預(yù)測(cè)模型訓(xùn)練方法,包括如下步驟:
S1:獲取預(yù)處理后的數(shù)據(jù)集,其中,每個(gè)樣本數(shù)據(jù)包含離散化特征和連續(xù)特征,對(duì)于特征處理部分只考慮分類特征的情況,通過(guò)對(duì)連續(xù)性特征進(jìn)行離散化分類來(lái)進(jìn)行數(shù)據(jù)預(yù)處理信息;
S2:通過(guò)改進(jìn)的嵌入層有效的將高維稀疏的數(shù)據(jù)映射為低維特征數(shù)據(jù),其中,改進(jìn)的嵌入層是普通嵌入層與自注意力模塊相結(jié)合,更好的學(xué)習(xí)特征內(nèi)部聯(lián)系并賦予權(quán)重過(guò)濾無(wú)用信息;
S3:一方面通過(guò)邏輯回歸對(duì)低階顯性特征進(jìn)行處理,豐富對(duì)低階顯性特征表達(dá)的缺失,另一方面將低維特征數(shù)據(jù)輸入到特征提取網(wǎng)絡(luò),提取二階特征組合信息;
S4:將低階部分訓(xùn)練結(jié)果與高階訓(xùn)練結(jié)果通過(guò)函數(shù)歸一化得到最終預(yù)測(cè)值。
可選的,自注意力機(jī)制的計(jì)算是在特征提取前相對(duì)于自身之間的內(nèi)部聯(lián)系進(jìn)行訓(xùn)練,突出有效信息并加快訓(xùn)練速度,將特征向量輸出的通過(guò)與權(quán)重矩陣相乘得到對(duì)應(yīng)的張量,即查詢張量(Q)、鍵張量(K)和值張量(V),通過(guò)公式計(jì)算得出對(duì)應(yīng)的賦予權(quán)重之后的矩陣,公式如下:
優(yōu)選的,通過(guò)分別對(duì)相應(yīng)特征進(jìn)行復(fù)制和內(nèi)積操作,用o(p,i,j)表示第i個(gè)特征的復(fù)制操作,用表示第i個(gè)特征和第j個(gè)特征的內(nèi)積操作;
輸出嵌入特征ef和交互特征if,假設(shè)有個(gè)m特征可以構(gòu)造如下:
γ是從操作到索引的映射,if可以按如下方式構(gòu)建:
if=[p1,2,p1,3,…,pm-1,m]
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于遼寧工程技術(shù)大學(xué),未經(jīng)遼寧工程技術(shù)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111627057.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種信息展示方法和裝置
- 媒體廣告點(diǎn)擊率的優(yōu)化方法、裝置及媒體廣告系統(tǒng)
- 點(diǎn)擊率校正方法、預(yù)估方法、裝置、計(jì)算設(shè)備及存儲(chǔ)介質(zhì)
- 點(diǎn)擊率預(yù)估方法、裝置、計(jì)算設(shè)備及存儲(chǔ)介質(zhì)
- 點(diǎn)擊率預(yù)估方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種視頻推薦方法及裝置
- 推廣信息展示方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 廣告點(diǎn)擊率數(shù)據(jù)的處理方法、裝置和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 點(diǎn)擊率預(yù)測(cè)模型的訓(xùn)練方法、推薦方法、裝置及電子設(shè)備
- 一種消息推送方法、裝置、電子設(shè)備及介質(zhì)





