[發明專利]一種針對購物節的搜索廣告轉化率預測方法及裝置有效
| 申請號: | 202010146512.4 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111352976B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 賴粵;錢毅霖;余榮;吳茂強 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06N20/00;G06Q30/0201;G06Q30/0242 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 黃忠 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 購物 搜索 廣告 轉化 預測 方法 裝置 | ||
1.一種針對購物節的搜索廣告轉化率預測方法,其特征在于,包括:
獲取購物節當天以及購物節之前的購物數據集;
將所述購物數據集中的數據進行預處理,得到符合所述廣告轉化率模型輸入格式的數據;
其中,所述將所述購物數據集中的數據進行預處理包括:對所述購物數據集中的缺失值及異常值進行處理;將所述購物數據集中的搜索廣告類目屬性原始特征進行處理,得到符合格式要求的特征數據;采用基于信息熵原理的分層編碼方法編碼所述特征數據;
其中,所述采用基于信息熵原理的分層編碼方法編碼所述特征數據具體為:
輸入所述特征數據;將所述特征數據與特征庫中的數據進行比對,若所述特征庫中不包含所述特征數據,則利用信息熵公式計算所述特征數據分值;若所述分值大于第一閾值,則丟棄所述特征數據;若所述分值大于第二閾值且小于第一閾值,則采用獨熱編碼方法對所述特征數據進行編碼;若所述分值小于第三閾值且所述特征數據不是id類特征,則采用均值編碼方法對所述特征數據進行編碼;若所述分值小于第三閾值且所述特征數據是id類特征,則采用Embedding編碼方法對所述特征數據進行編碼;輸出編碼后的特征數據;
其中,所述特征數據包括轉化率特征、用戶特征、商品特征、id特征、搜索廣告特征、時間特征以及排序特征;
其中,所述將所述購物數據集中的數據進行預處理還包括:采用基于先驗值的轉化率平滑方法對所述轉化率特征進行平滑處理,具體為:
當以不同特征或特征組合分組計算轉化率時,B表示相應特征或特征組合的購買數,C表示相應特征或特征組合的點擊數,和分別為相應特征或特征組合在相同時間范圍內的平均購買數和平均點擊數,的參數調整范圍在0~1之間,表示了對統計值的信心;
將所述購物節之前的購物數據集作為第一訓練集,訓練廣告轉化率模型,預測得到購物節當天的第一預測結果;
將購物節當天的部分時間的所述購物數據集作為第二訓練集,將購物節當天的另一部分時間的所述購物數據集作為測試集,將所述第二訓練集中的部分數據作為驗證集,將所述第一預測結果作為新特征分別加入到所述第二訓練集、所述驗證集以及所述測試集中;
采用加入新特征的所述第二訓練集、所述驗證集以及所述測試集訓練所述廣告轉化率模型,得到購物節當天的最終結果。
2.根據權利要求1所述的針對購物節的搜索廣告轉化率預測方法,其特征在于,所述獲取購物節當天以及購物節之前的購物數據集所采用的評估標準為:
式中,N表示測試集樣本數量,yi表示測試集中第i個樣本的真實標簽,pi表示第i個樣本的預估轉化率。
3.一種針對購物節的搜索廣告轉化率預測裝置,其特征在于,包括:
數據獲取模塊,用于獲取購物節當天以及購物節之前的購物數據集;
第一預測模塊,用于將所述購物節之前的購物數據集作為第一訓練集,訓練廣告轉化率模型,預測得到購物節當天的第一預測結果;
數據集處理模塊,用于將購物節當天的部分時間的所述購物數據集作為第二訓練集,將購物節當天的另一部分時間的所述購物數據集作為測試集,將所述第二訓練集中的部分數據作為驗證集,將所述第一預測結果作為新特征分別加入到所述第二訓練集、所述驗證集以及所述測試集中;
合并預測模塊,用于將加入新特征的所述第二訓練集、所述驗證集以及所述測試集訓練所述廣告轉化率模型,得到購物節當天的最終結果;
預處理模塊,用于將所述購物數據集中的數據進行預處理,得到符合廣告轉化率模型輸入格式的數據;
其中,所述將所述購物數據集中的數據進行預處理包括:對所述購物數據集中的缺失值及異常值進行處理;將所述購物數據集中的搜索廣告類目屬性原始特征進行處理,得到符合格式要求的特征數據;采用基于信息熵原理的分層編碼方法編碼所述特征數據;
其中,所述采用基于信息熵原理的分層編碼方法編碼所述特征數據具體為:
輸入所述特征數據;將所述特征數據與特征庫中的數據進行比對,若所述特征庫中不包含所述特征數據,則利用信息熵公式計算所述特征數據分值;若所述分值大于第一閾值,則丟棄所述特征數據;若所述分值大于第二閾值且小于第一閾值,則采用獨熱編碼方法對所述特征數據進行編碼;若所述分值小于第三閾值且所述特征數據不是id類特征,則采用均值編碼方法對所述特征數據進行編碼;若所述分值小于第三閾值且所述特征數據是id類特征,則采用Embedding編碼方法對所述特征數據進行編碼;輸出編碼后的特征數據;
其中,所述特征數據包括轉化率特征、用戶特征、商品特征、id特征、搜索廣告特征、時間特征以及排序特征;
其中,所述將所述購物數據集中的數據進行預處理還包括:采用基于先驗值的轉化率平滑方法對所述轉化率特征進行平滑處理,具體為:
當以不同特征或特征組合分組計算轉化率時,B表示相應特征或特征組合的購買數,C表示相應特征或特征組合的點擊數,和分別為相應特征或特征組合在相同時間范圍內的平均購買數和平均點擊數,的參數調整范圍在0~1之間,表示了對統計值的信心。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010146512.4/1.html,轉載請聲明來源鉆瓜專利網。





