[發明專利]基于小波特征聚類的廣告流量反作弊方法及裝置在審
| 申請號: | 202010171322.8 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111401950A | 公開(公告)日: | 2020-07-10 |
| 發明(設計)人: | 潘卿波;段思九;趙宇迪;施侃 | 申請(專利權)人: | 上海數川數據科技有限公司 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06F16/906;G06K9/62 |
| 代理公司: | 宿遷市永泰睿博知識產權代理事務所(普通合伙) 32264 | 代理人: | 孫麗麗 |
| 地址: | 100000 北京市朝*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 波特 征聚類 廣告 流量 作弊 方法 裝置 | ||
1.一種基于小波特征聚類的廣告流量反作弊方法,其特征在于,所述基于小波特征聚類的廣告流量反作弊方法包括:
獲取網站的流量數據;
對網站流量數據進行小波分析,重構為作弊流子帶和背景流子帶;
根據重構的作弊流子帶和背景流子帶,提取多個不同維度的小波特征;
綜合多個不同維度的小波特征,對多個網站進行聚類;
根據網站聚類結果,找出流量數據作弊的網站。
2.如權利要求1所述的基于小波特征聚類的廣告流量反作弊方法,其特征在于,所述獲取網站的流量數據,包括:
收集用戶對網站訪問的請求日志,并解析字段;
將請求對應的流量以秒為單位進行聚合,生成待檢測時間序列,作為網站的流量數據。
3.如權利要求2所述的基于小波特征聚類的廣告流量反作弊方法,其特征在于,所述對網站流量數據進行小波分析,重構為作弊流子帶和背景流子帶,包括:
利用離散小波函數和尺度函數將網站流量做J層分解,分解公式如下:
,
其中,為小波系數,表示細節信息;為近似系數,表示近似信息;
選取J層中的多層小波系數重構為作弊流子帶,其中,作弊流子帶反映信號低頻信息;
將其余層系數重構為背景流子帶,其中,背景流子帶反映正常用戶流量趨勢。
4.如權利要求3所述的基于小波特征聚類的廣告流量反作弊方法,其特征在于,所述提取多個不同維度的小波特征,包括:
提取作弊流子帶的平均值;
提取作弊流子帶的標準差;
提取作弊流的頻譜能量;
提取背景流子帶的平均值;
提取網站流量的脈沖因子。
5.如權利要求4所述的基于小波特征聚類的廣告流量反作弊方法,其特征在于,所述提取作弊流子帶的平均值,包括:
計算作弊流子帶平均值,滿足下述公式:
;
其中,N為時間序列長度;
所述提取作弊流子帶的標準差包括:
計算作弊流子帶標準差,滿足下述公式:
;
其中,;
所述提取作弊流的頻譜能量,包括:
計算作弊流的頻譜能量,滿足下述公式:
;
其中,表示了信號在窗內的能量強度;
所述提取背景流子帶的平均值,包括:
計算背景流子帶平均值,滿足下述公式:
;
所述提取網站流量的脈沖因子,包括:
計算網站流量脈沖因子I,滿足下述公式:
。
6.如權利要求4所述的基于小波特征聚類的廣告流量反作弊方法,其特征在于,所述綜合多個不同維度的小波特征,對多個網站進行聚類,包括:
綜合網站的多個不同維度的小波特征,形成該網站的特征向量;
分別對多個網站分別進行小波分析,獲取每個網站的特征向量;
計算每兩個網站特征向量的余弦相似度,得到網站之間的相似度矩陣;
利用相似度矩陣對網站進行聚類,將網站劃分為多個簇。
7.如權利要求6所述的基于小波特征聚類的廣告流量反作弊方法,其特征在于,所述根據網站聚類結果,找出流量數據作弊的網站,包括:
將已識別的流量數據作弊網站所在的簇標記為可疑簇;
對可疑簇中的網站進行人為篩選、維度標注,并制定黑名單;
當新網站出現時,判斷其是否存在于黑名單,若不存在則計算該網站特征向量的余弦相似度,劃分該網站的所屬簇。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海數川數據科技有限公司,未經上海數川數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010171322.8/1.html,轉載請聲明來源鉆瓜專利網。





