[發明專利]一種基于時間衰減采樣的廣告點擊預估方法有效
| 申請號: | 201710041277.2 | 申請日: | 2017-01-17 |
| 公開(公告)號: | CN106886915B | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 董守斌;黃淦;胡金龍;袁華 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06K9/62 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 羅觀祥 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時間 衰減 采樣 廣告 點擊 預估 方法 | ||
1.一種基于時間衰減采樣的廣告點擊預估方法,其特征在于,包括以下步驟:
S1、數據清洗
對廣告瀏覽/點擊日志進行數據清洗,需要將后臺的數據進行分析,將廣告瀏覽/點擊日志按標志分為RSET和CSET,RSET為所有瀏覽日志的集合,其每條日志標記為0,CSET是所有點擊日志集合,其每條日志標記為1;在RSET中遍歷每一條瀏覽日志,若對于一條瀏覽日志Ri,記Ri的點擊時間為UNIX時間戳時間ti,用戶ID為UIDi,廣告ID為AIDi,設判別時間間隔閾值為π,如果在CSET中的ti+π范圍內有UIDi和AIDi均相同的點擊日志命中,則將該瀏覽日志Ri標記為1,如果不命中,則保持Ri的標記為0,最后集合RSET為清洗后的廣告點擊數據集;
S2、預處理
對構建的廣告點擊數據集RSET進行進一步過濾篩選、缺失值填補、異常值檢測,具體如下:
S2.1、過濾篩選及缺失值填補
對廣告點擊數據集中不符合值的取值范圍的數據進行去除處理,對廣告點擊日志的每個字段進行統計分析,對于一個字段,定義該字段在數據集中值為null或者空字符串的記錄為該字段的缺失記錄,記為n,記數據集RSET總記錄數為N,記閾值為K則對于超過預設閾值K的字段不進行保留,對于比例在K之內的字段,將其缺失值賦予一個和該字段其他值都不同的新值,作為正常值使用;另外,對于數據中字段值冗余的情況,消除冗余值;
S2.2、異常值檢測
對數據集中每一個用戶ID進行總點擊次數的統計,并進而統計總點擊次數相同的用戶的個數,記總點擊次數集合為A={α1,α2,...,αi,...,αn},記相應的用戶個數集合為B={β1,β2,...,βi,...,βn},假設αi和βi服從冪律分布,則logαi和logβi呈線性關系,將logαi和logβi作散點圖,用直線去擬合,將從某個點開始偏離擬合線的總點擊次數作為閾值ρ,將總點擊次數αi大于ρ的用戶作為異常用戶,記正常用戶集合為U,記異常用戶集合為U′,將異常用戶集合U′產生的廣告點擊數據集合記為SET′,將正常用戶集合U產生的廣告點擊數據集合記為SET;
S3、時間衰減采樣
從步驟S2的集合SET中選定連續的m天作為訓練集,第m+1天作為測試集,針對訓練集,將根據時間新鮮度計算得到的時間因子作為權重,分別計算訓練集每天的抽樣比例,將每天抽取的樣本進行組合,形成整體的多份抽樣樣本;其中,依據時間衰減的抽樣,具體過程如下:
選定連續的m天作為訓練集,第m+1天作為測試集后,記m天中的第一天為T1,第m天為Tm,由此形成T1,T2,...,Tt,...,Tm的時間序列數據;根據日期新鮮度為采樣引入時間因子,記λt為Tt那天的采樣比例,則λt-1為Tt前一天的采樣比例,λt+1為Tt后一天的采樣比例;所述時間衰減采樣即是λt-1<λt<λt+1的一種采樣方式,其中λt由時間衰減函數計算所得,得到λt后,若Tt的少數類數量為s,則應該按照欠采樣抽取出λts的多數類數量;
時間衰減采樣有三個參數m,λ1和λm,這三個參數由人為指定,m為訓練集所包含的日期的天數,λ1為第一天的采樣比例,λm為第m天的采樣比例,其中λ1與λm需要滿足0<λ1<λm,不同的模型能夠根據實際情況對這三個參數進行相應調優;本采樣通過時間衰減函數來確定采樣比例,時間衰減函數為λt=at2+b,人為確定λ1和λm,時間衰減函數中的參數a和b通過公式(1)(2)求出:
則,在給定m,λ1和λm下,時間衰減函數為公式(3):
因此,每一天的采樣比例能夠根據公式(3)得到;
確定了時間衰減函數,并通過時間衰減函數為Tt計算出相應的采樣比例λt,由此能夠得到訓練集的時間衰減采樣比例序列{λ1,λ2,...,λt,...,λm},根據采樣比例序列{λ1,λ2,...,λt,...,λm}得到訓練集的m份采樣數據:記Tt的少數類集合為pt,多數類集合為qt,|qt|為qt包含的記錄總數,然后根據采樣比例λt從qt中隨機抽取出λt|qt|數量的集合,記為q′t;記從Tt采樣出的數據集為St,則有St=pt∪q′t,記最終的第t份樣本集為Dt,1≤t≤m,則Dt由公式得到,如此就能夠得到需要的m份抽樣樣本序列{D1,D2,...,Dt,...,Dm};
S4、混合模型構建
S4.1、正常用戶建模
根據步驟S2的集合SET,得到步驟S3構建的m份抽樣樣本序列{D1,D2,...,Dt,...,Dm}后,分別為每個樣本集Dt訓練邏輯回歸模型Mt,由此得到m個邏輯回歸模型{M1,M2,...,Mt,...,Mm};
S4.2、異常用戶建模
根據步驟S2的集合SET′,確定和SET一樣的訓練集和測試集日期,用所有訓練數據訓練出邏輯回歸模型M′;
S4.3、點擊預測
根據步驟S2得到的正常用戶集合U,異常用戶集合U′,針對每一條用戶瀏覽請求,若其用戶UIDi∈U,記步驟S4.1的邏輯回歸模型Mt的預測值為εt,使用時間衰減的方式進行廣告點擊概率的融合,將時間因子引進模型權重的計算中,根據采樣比例序列{λ1,λ2,...,λt,...,λm}以及邏輯回歸模型{M1,M2,...,Mt,...,Mm},在模型融合時,分別為每個邏輯回歸模型Mt賦予時間衰減的參數,具體地,記采樣比例序列元素之和為將{λ1,λ2,...,λt,...,λm}的每一個元素進行歸一化,記λt歸一化之后的值為λ′t,則記最終的預估概率值為E,則若用戶UIDi∈U′,則直接用模型M′得到該用戶的廣告點擊概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710041277.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種積分轉化為數字資產的存儲方法、系統及裝置
- 下一篇:聲譽管理系統及方法





