[發明專利]一種數據的識別處理方法有效

申請號：	201210077032.2	申請日：	2012-03-21
公開（公告）號：	CN102663021A	公開（公告）日：	2012-09-12
發明（設計）人：	戴霖;田寧;劉崟;譚磊	申請（專利權）人：	浙江盤石信息技術有限公司
主分類號：	G06F17/30	分類號：	G06F17/30;H04L29/06
代理公司：	杭州宇信知識產權代理事務所(普通合伙) 33231	代理人：	張宇娟
地址：	310011 浙江省杭***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種數據識別處理方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于互聯網信息處理技術領域，尤其是互聯網聯盟廣告技術領域，涉及一種數據的識別處理方法。

背景技術

隨著互聯網技術的不斷發展，互聯網廣告市場規模發展迅猛，在廣告業中占據著越加重要的位置。網站聯盟作為互聯網廣告中最為重要的形式之一，因為其覆蓋面廣、精準度高和實時靈活性而倍受關注。同時，該廣告形式也面臨著廣告欺詐的困擾。

廣告欺詐是指網民受金錢、利益等吸引對網絡廣告進行惡意反復點擊或顯示的行為，以達到收獲金錢或打壓競爭對手等目的。廣告欺詐在消耗廣告主費用的同時，也嚴重影響了廣告客戶對這一新興的網絡市場銷售工具的信心，對整個互聯網廣告行業產生著非常消極的影響，甚至可能影響到這一模式的生存發展。因此，如何實時、準確的識別廣告欺詐，這對網站聯盟的健康快速發展有著非常重要的影響。

目前技術解決該問題的方法主要有兩種：一是從流量監控角度，對重復流量進行阻止或不予計費。該方法對于一些通過軟件或雇傭人力不斷重復刷新的欺詐行為有領好效果，但對于如今更為智能的欺詐行為，如點擊聯盟等，則收效甚微；另一種解決方式是采用對獲取的用戶訪問數據依一定算法進行分析，對欺詐行為進行實時反饋和組織。然而，由于該類算法主要進行實時分析與反饋，數據和識別力度的有限，導致其識別準確率也同樣有限。并且，對于聯盟中不可小覷的作弊群體和站點，其也無法進行有效識別。

故，實有必要進行研究，提供一種解決方案，解決目前的互聯網廣告欺詐的識別方法響應速度和識別準確性有限的問題。

發明內容

為解決上述問題，本發明的目的在于提供一種數據的識別處理方法，以準確識別互聯網廣告欺詐，且快速響應互聯網廣告欺詐的識別。

為實現上述目的，本發明的技術方案為：

一種數據的識別處理方法，包括如下步驟：

S10：對數據進行實時識別，并將識別出的欺詐數據和非欺詐數據以及數據對應信任值分別存入數據庫；

S11：對數據進行定時識別，并將識別出的欺詐站點存入欺詐站點數據庫，同時將得到的站點信任值分配給站點下的數據；

S12：對數據進行綜合識別，結合定時識別階段獲取的信任值，將實時識別中存入非欺詐數據庫中的數據進行再一次的識別判斷。

進一步地，所述步驟S10具體包括有步驟：

S101：建立模塊劃分庫，并對每個模塊依已有經驗進行質量值分配；

S102：對每條用戶訪問數據進行基于模塊的統計分析與質量值獲取；

S103：對各模塊進行數據融合，通過公式將各模塊的質量值融合，得到該條數據對于欺詐屬性的信任值；其中，r_bel_j是指第j條用戶訪問數據對欺詐屬性的信任值，n為模塊個數，α_i代表第i個模塊中的數據對欺詐屬性的質量值；

S104：將該信任值與預先設定的實時欺詐識別信任值閾值比較，做出數據是否為欺詐數據的實時判斷。

進一步地，所述步驟S11具體包括有步驟：

S111：建立維度庫，對數據依據其分布屬性進行維度選擇，并依照已有經驗建立維度標準分布庫；

S112：數據聚合與統計，對用戶訪問數據進行基于站點的聚合，并對聚合后數據進行基于維度的分布統計；

S113：各維度相似度計算，根據公式進行各維度與標準維度的相似度計算；其中，sim_i是指站點實際的i維度分布與標準i維度分布的相似值，是指標準i維度分布向量，是指站點實際的i維度分布向量；

S114：根據公式對各維度進行數據融合，得到該站點數據對于欺詐屬性的信任值；其中，f_el_j是指站點j中各維度分布對欺詐屬性的信任值，m表示維度個數；

S115：將所獲得的欺詐信任值f_bel_j與定時欺詐識別信任值閾值比較，若大于預設閾值，則判斷該站點為欺詐站點；否則，判斷為非欺詐站點。

進一步地，所述步驟S12具體包括有步驟：

S121：分配定時欺詐識別信任值，將定時欺詐識別中得到的站點信任值分配到其對應的各用戶訪問數據上；

S122：兩模塊數據融合，采用公式對兩模塊數據融合進行計算；其中，w_bel_j是指第j條用戶訪問數據對欺詐屬性的信任值；

S123：將所獲得的欺詐信任值與綜合欺詐識別信任值閾值比較，若大于預設閾值，則判斷該條用戶訪問數據為欺詐數據；否則，判斷為非欺詐數據。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江盤石信息技術有限公司，未經浙江盤石信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210077032.2/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】