[發明專利]互聯網廣告異常點擊檢測方法、裝置、設備及可讀存儲介質有效
| 申請號: | 201710402564.1 | 申請日: | 2017-06-01 |
| 公開(公告)號: | CN107168854B | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 秦筱樺;何敬江;畢野 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30;G06F11/34;G06F16/958;G06Q30/02 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 姜怡;闞梓瑄 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 廣告 異常 點擊 檢測 方法 裝置 設備 可讀 存儲 介質 | ||
1.一種互聯網廣告異常點擊檢測方法,其特征在于,包括:
從多條日志數據中分別篩選出廣告點擊量大于一預設的第一閾值的多個樣本數據,所述樣本數據為基于不同維度聚合后的點擊量數據;
根據所述多個樣本數據,基于配置化文件,分別確定相應維度的各統計特征的特征值;
建立所述各統計特征的特征值的第一高斯分布,并獲得各第一高斯分布的第一均值和第一標準差;
根據所述各統計特征的特征值的第一高斯分布的第一均值和第一標準差,分別判斷所述多個樣本數據是否異常;
根據各樣本數據相應維度的各統計特征的特征值及各統計特征的特征值的第二高斯分布,分別對各條日志數據進行離線標注,獲得各條日志數據的標注結果,以確定各條日志中的離線點擊是否異常;
對各條日志數據中的所述離線點擊的基礎特征與所述標注結果之間的關系進行學習,獲得訓練生成模型;以及
根據所述訓練生成模型,對實時點擊是否為異常點擊進行實時判斷;
其中,所述配置化文件包括用于確定所述各統計特征的特征值的計算算子。
2.根據權利要求1所述的方法,其特征在于,根據所述各統計特征的特征值的第一高斯分布的第一均值和第一標準差,分別判斷所述多個樣本數據是否異常包括:
針對各統計特征i,去除所述多個樣本數據中其統計特征i的特征值小于u(i)-2*σ(i)或者大于u(i)+2*σ(i)的樣本數據,其中u(i)為統計特征i的特征值的第一高斯分布的第一均值,σ(i)為統計特征i的特征值的第一高斯分布的第一標準差;
根據剩余的所述樣本數據,分別重新建立相應維度的各統計特征i的特征值的第二高斯分布,并重新獲得各第二高斯分布的第二均值u2(i)和第二標準差σ2(i);
確定各統計特征i的特征值的第二高斯分布中的第一分位點概率密度Cp(i)、第二分位點概率密度Bp(i)及第三分位點概率密度Ap(i);
分別確定所有統計特征的所述第一分位點概率密度的乘積Cp、所述第二分位點概率密度的乘積Bp及所述第三分位點概率密度的乘積Ap;
分別計算各樣本數據的所有統計特征的特征值的乘積Y;以及
根據Cp、Bp、Ap及各樣本數據的Y,分別判斷各樣本數據是否異常;
其中,所述第一分位點概率密度Cp(i)小于所述第二分位點概率密度Bp(i),且所述第二分位點概率密度Bp(i)小于第三分位點概率密度Ap(i)。
3.根據權利要求2所述的方法,其特征在于,根據Cp、Bp、Ap及Y,分別判斷各樣本數據是否異常包括:
當所述樣本數據的Y小于Cp時,確定該樣本數據為極端異常;
當所述樣本數據的Y小于Bp時,確定該樣本數據為嚴重異常;
當所述樣本數據的Y小于Ap時,確定該樣本數據為一般異常。
4.根據權利要求1所述的方法,其特征在于,根據各樣本數據相應維度的各統計特征的特征值及各統計特征的特征值的第二高斯分布,分別對各條日志數據進行離線標注,獲得各條日志數據的標注結果,以確定各條日志中的離線點擊是否異常包括:
分別對各條日志數據執行如下操作:
確定各統計特征的特征值;
根據各統計特征的特征值及其第二高斯分布的第二均值u2(i)及第二標準差σ2(i),確定各統計特征的異常度分數為:
確定該條日志數據的總異常度為各統計特征的異常度分數的加和;以及
當所述總異常度大于一預設的第二閾值時,判斷所述離線點擊為異常點擊;當所述總異常度小于所述第二閾值時,判斷所述離線點擊為正常點擊;
其中,score(i)為統計特征i的所述異常度分數,fVal(i)為統計特征i的所述特征值。
5.根據權利要求4所述的方法,其特征在于,根據所述訓練生成模型,對實時點擊是否為異常點擊進行實時判斷包括:
解析所述實時點擊的基礎特征;
根據所述實時點擊的基礎特征與所述訓練生成模型,確定一預估值,所述預估值的區間為[0,1];以及
當所述預估值大于一預設的第三閾值時,判斷所述實時點擊為異常點擊;當所述預估值小于或等于所述第三閾值時,判斷所述實時點擊為正常點擊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710402564.1/1.html,轉載請聲明來源鉆瓜專利網。





