[發明專利]一種CTR預估方法、裝置及計算機可讀存儲介質在審
| 申請號: | 202210314233.3 | 申請日: | 2022-03-28 |
| 公開(公告)號: | CN114880920A | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 王貴森;任萬鑫 | 申請(專利權)人: | 成都人人互娛科技有限公司 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06Q30/02;G06F119/02 |
| 代理公司: | 北京城烽知識產權代理事務所(特殊普通合伙) 11829 | 代理人: | 王新月 |
| 地址: | 610000 四川省成都市中國(四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 ctr 預估 方法 裝置 計算機 可讀 存儲 介質 | ||
本發明實施例公開了一種CTR預估方法,包括:獲取預設天數內的廣告日志數據,按目標鍵值對廣告日志數據進行統計計算,根據用戶點擊行為生成每條目標鍵值下的標簽,將每條目標鍵值下對應的統計計算結果與標簽合并,得到第一數據集;構建多維畫像,將多維畫像作為第二數據集;以目標鍵值為數據標識,將第一數據集及第二數據集合并為第三數據集;對第三數據集進行特征工程處理,得到訓練數據集;采用CNN算法及內積算法對訓練數據集進行局部特征交叉,采用FM算法對訓練數據集進行全局特征交叉,訓練得到預估模型;使用預估模型對待測數據進行CTR預估,得到預估的CTR結果。通過融合FM及CNN,解決了稀疏特征全量交互效果差的問題,提高了模型的預估準確性。
技術領域
本發明涉及互聯網廣告技術領域,尤其涉及一種CTR預估方法、裝置及計算機可讀存儲介質。
背景技術
隨著互聯網的發展,互聯網廣告成為互聯網企業的重要收入渠道。廣告系統作為用戶和廣告主的紐帶,一方面為用戶帶來了個性化的體驗,另一方面為廣告主的品牌拓展、產品推廣和銷量提升等帶來巨大的商業價值。廣告系統中的點擊率預估(Click ThroughRate,以下簡稱CTR),是根據用戶對廣告的歷史行為數據建模,根據請求的用戶和廣告來預測用戶對廣告的點擊概率。CTR預估作為廣告系統的重要組成部分,提升CTR模型的預估能力,能夠提升廣告系統的質量、提升用戶的體驗、提升廣告主的營銷質量,為互聯網廣告企業創造更高的價值。
目前業界CTR預估最常用的一種方案就是直接根據歷史結構化數據進行建模。在其下的諸多網絡結構,傳統方法是從原始特征中學習低階特征和高階特征的交互,例如,DCN的Cross交叉層、PNN的Product乘積層、AFM的Attention注意力層等。上述方法再結合DNN能夠對學習全量特征交互有較好的效果,但是在廣告CTR場景中,存在大量的稀疏數據,即有用的交互大多是稀疏的,因此上述方法很難在大量參數中高效的學習它們,所以直接使用傳統特征交互方法效果反而不太理想。
針對現有技術中訓練模型時無法對稀疏特征進行有效學習的問題,目前還沒有一個有效的解決方法。
發明內容
為解決上述問題,本發明提供一種CTR預估方法,通過對廣告日志數據進行統計計算、打標及多維畫像構建得到特征豐富的訓練數據集,在特征訓練時采用CNN算法及內積算法對局部特征進行訓練,采用FM算法對全局特征進行訓練,得到預估模型,從而加強對稀疏特征的關注度,以解決現有技術中訓練模型時無法對稀疏特征進行有效學習的問題。
為達到上述目的,本發明提供了一種CTR預估方法,包括:獲取預設天數內的廣告日志數據,按目標鍵值對所述廣告日志數據進行統計計算,得到統計計算結果,根據用戶點擊行為生成每條目標鍵值下的標簽,將每條目標鍵值下對應的統計計算結果與標簽合并,得到第一數據集;根據所述廣告日志數據構建多維畫像,將所述多維畫像作為第二數據集;以目標鍵值為數據標識,將所述第一數據集及第二數據集合并為第三數據集;對第三數據集進行特征工程處理,得到訓練數據集;采用CNN算法及內積算法對訓練數據集進行局部特征交叉,采用FM算法對訓練數據集進行全局特征交叉,訓練得到預估模型;使用預估模型對待測數據進行CTR預估,得到預估的CTR結果。
進一步可選的,所述采用CNN算法及內積算法對訓練數據集進行局部特征交叉,采用FM算法對訓練數據集進行全局特征交叉,訓練得到預估模型包括:識別所述訓練數據集中的稀疏特征及稠密特征;將所述稀疏特征依次經過CNN算法及內積算法進行特征交叉,得到第一特征數據;將稠密特征與向量化后的稀疏特征進行拼接,得到第二特征數據;將所述稀疏特征及稠密特征進行特征交叉,得到第三特征數據;將所述第一特征數據、第二特征數據及第三特征數據進行訓練,得到所述預估模型。
進一步可選的,所述對第三數據集進行特征工程處理包括:對所述第三數據集進行缺失值處理;和/或對所述第三數據集進行特征選擇;和/或對所述第三數據集進行異常值剔除;和/或對所述第三數據集進行無量綱化;和/或對所述第三數據集進行數據修正。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都人人互娛科技有限公司,未經成都人人互娛科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210314233.3/2.html,轉載請聲明來源鉆瓜專利網。





