[發明專利]一種互聯網廣告投放的反作弊監控方法在審
| 申請號: | 201711109062.6 | 申請日: | 2017-11-11 |
| 公開(公告)號: | CN107909396A | 公開(公告)日: | 2018-04-13 |
| 發明(設計)人: | 李加音 | 申請(專利權)人: | 霍爾果斯普力網絡科技有限公司 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 835100 新疆維吾爾自治區伊犁哈薩克自治州霍爾果斯*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 廣告 投放 作弊 監控 方法 | ||
技術領域
本發明涉及互聯網廣告領域,具體地,涉及一種互聯網廣告投放的反作弊監控方法。
背景技術
隨著互聯網的蓬勃發展,中國的網民人數不斷增加,互聯網廣告的價值得到越來越多廣告主的認可,但是,與傳統媒體行業不同,互聯網行業的技術門檻更高、數據結構更為復雜、評估指標維度更多、廣告投放技術要求更高。為了增加互聯網廣告的收益,一些媒體使用各種辦法作弊,惡意增加互聯網廣告的曝光量或者點擊量,會產生許多作弊日志數據。作弊網頁廣告的存在具有多種危害性,作弊網頁向用戶提供了不相關的信息,有的還包含大量彈窗信息與跳轉功能,嚴重影響用戶的瀏覽體驗。
發明內容
本發明的目的是提供一種互聯網廣告投放的反作弊監控方法,解決了為了增加互聯網廣告的收益,一些媒體使用各種辦法作弊,惡意增加互聯網廣告的曝光量或者點擊量,會產生許多作弊日志數據,嚴重影響用戶的瀏覽體驗的問題。
為了實現上述目的,本發明提供了一種互聯網廣告投放的反作弊監控方法,所述反作弊監控方法包括:
(1)數據抓取:以爬蟲形式對包含互聯網廣告的網頁進行抓取;
(2)網頁處理與特征提取:對抓取下的網頁進行處理,從中提取作弊檢測的相關特征;
(3)構建樣本:將提取的相關特征進行匯總,生產適合分類器輸入的樣本文件;
(4)作弊檢測:構建分類器,使用樣本文件作為輸入數據,對網頁上的廣告進行作弊檢測。
優選地,在步驟(1)中數據抓取的方法還包括:獲取網頁廣告URL,加入至待抓取URL列表,從列表中取出一個URL,若該URL已經被抓取,則結束抓取,若該URL未被抓取,則提取網頁廣告中的URL,加入待抓取URL列表中。
優選地,在步驟(2)中,網頁處理與特征提取的方法還包括:首先對網頁廣告中的html源碼進行處理,按順序分別去掉源碼中的注釋部分、JavaScript、CSS布局和HTML標簽,提取其中的正文內容。
優選地,在步驟(3)中,分類器選擇C4.5、Bagging或Adaboost。
優選地,在步驟(4)中,作弊檢測的方法還包括:使用機器學習方法在樣本文件上進行分類器訓練,并用訓練好的分類器在待檢測樣本上進行分類檢測,最終根據網頁所屬的類別來判斷其是否屬于作弊網頁。
優選地,樣本文件為包含相關特征的ARFF文件。
根據上述技術方案,本發明提供了一種互聯網廣告投放的反作弊監控方法,所述反作弊監控方法包括:數據抓取:以爬蟲形式對包含互聯網廣告的網頁進行抓取;網頁處理與特征提取:對抓取下的網頁進行處理,從中提取作弊檢測的相關特征;構建樣本:將提取的相關特征進行匯總,生產適合分類器輸入的樣本文件;作弊檢測:構建分類器,使用樣本文件作為輸入數據,對網頁上的廣告進行作弊檢測。本發明提供的反作弊監控方法構建網絡爬蟲,實現對互聯網頁面的抓取,構建相關功能模塊與數據庫,實現對抓取網頁的處理、特征提取與存儲,實現對作弊網頁的檢測與結果評估。
本發明的其他特征和優點將在隨后的具體實施方式部分予以詳細說明。
附圖說明
附圖是用來提供對本發明的進一步理解,并且構成說明書的一部分,與下面的具體實施方式一起用于解釋本發明,但并不構成對本發明的限制。在附圖中:
圖1是本發明提供的反作弊監控方法中數據抓取的流程圖;
圖2是本發明提供的反作弊監控方法中作弊檢測的流程圖。
具體實施方式
以下對本發明的具體實施方式進行詳細說明。應當理解的是,此處所描述的具體實施方式僅用于說明和解釋本發明,并不用于限制本發明。
本發明提供了一種互聯網廣告投放的反作弊監控方法,其特征在于,所述反作弊監控方法包括:數據抓取:以爬蟲形式對包含互聯網廣告的網頁進行抓取;網頁處理與特征提取:對抓取下的網頁進行處理,從中提取作弊檢測的相關特征;構建樣本:將提取的相關特征進行匯總,生產適合分類器輸入的樣本文件;作弊檢測:構建分類器,使用樣本文件作為輸入數據,對網頁上的廣告進行作弊檢測。本發明提供的反作弊監控方法構建網絡爬蟲,實現對互聯網頁面的抓取,構建相關功能模塊與數據庫,實現對抓取網頁的處理、特征提取與存儲,實現對作弊網頁的檢測與結果評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于霍爾果斯普力網絡科技有限公司,未經霍爾果斯普力網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711109062.6/2.html,轉載請聲明來源鉆瓜專利網。





