[發明專利]一種智能社交平臺廣告預警及處理方法有效
| 申請號: | 201410401416.4 | 申請日: | 2014-08-14 |
| 公開(公告)號: | CN104156447A | 公開(公告)日: | 2014-11-19 |
| 發明(設計)人: | 黃金海;周建政;王榮波;嚴俊杰;徐金劍;錢志;孫俊杰 | 申請(專利權)人: | 天格科技(杭州)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 杜軍 |
| 地址: | 310005 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 社交 平臺 廣告 預警 處理 方法 | ||
1.一種智能社交平臺廣告預警及處理方法,其特征在于該方法包括以下步驟:
步驟1.獲取社交平臺用戶實時聊天數據;
步驟2.對聊天數據進行預處理;
步驟3.對用戶行為進行統計、對用戶發言內容進行分析,具體是:
統計以下行為:
3-1)用戶最近2小時的發言量是否超過一定閾值;
3-2)用戶最近2小時發言包含中文數量是否超過一定閾值;
3-3)用戶最近20分鐘內發言句數與發言不同數比值超過10的,且發言句數超過閾值,去重后小于一定閾值的;
3-4)用戶單個IP一小時內和一定閾值以上用戶聊天;
3-5)用戶單個硬盤碼和多個用戶聊天,聊天用戶數超過一定閾值的;
3-6)用戶單位時間內與過多用戶聊天的;
3-7)用戶發言字數差過于單一的;
分析發言內容:
①構造正常文本庫和廣告文本庫;
②計算新文本中每個字出現時是廣告文本的概率;
式中,s表示廣告文本,h表示正常的文本,w表示文本中出現的每個字;每個字的概率不為零,最小約定為1%;
③計算新文本的聯合概率,如果大于閾值則判斷為廣告;
式中,pi是新文本中每個字為廣告文本的概率,n表示文本中字的個數;
如果用戶行為屬于上述七種行為中的一種或者新文本的聯合概率大于設定閾值,則認為此用戶可疑,先進行誤告可能性的分析,將可疑內容與歷史誤告警庫進行對比,如果在誤告警庫中出現過的,則判斷此記錄為誤告,不需再人工確認;如果沒有在誤告警庫中出現,則認為此用戶為疑似廣告用戶,則轉至步驟4;
步驟4.對識別出來的廣告信息進行預警;
步驟5.對預警內容確定其廣告置信度;置信度高的直接接入廣告庫,置信度低的轉入步驟6
步驟6.預警內容人工確認,如果能確認是廣告的,則加入廣告庫,再進行后續相關操作;如果不是廣告的,則選擇誤告,加入誤告警庫;
步驟7.對確認結果接入平臺權限進行直接處理;
步驟8.確認后的廣告信息,加入廣告庫,實時更新訓練器,計算新加入廣告模式,進行機器學習;具體是:
8-1)取最近3天的廣告數據,兩兩進行比較,把兩條廣告語中不同的字符利用通配符進行替換;如果替換掉的字符數占整個廣告語的長度少于一半或一定閾值的,認為廣告具有相關性,把通配符替換后的廣告語做為一個模式,以此類推,得到所有的廣告模式,去重后得到最終的模式集;
8-2)將8-1)中去重后的廣告模式集做為正規表達式的模式,最近3天的廣告數據做為內容,逐一進行匹配,匹配成功的內容忽略,匹配不成功的內容做為一個新模式加入到模式集;
8-3)把8-2)中的模式集做為新內容,重新迭代執行8-1)和8-2)步驟,直到沒有再新增加的模式,這樣可以得到一個最簡模式集合。
2.根據權利要求1所述的一種智能社交平臺廣告預警及處理方法,其特征在于:步驟2中的預處理具體是刪除表情、彩條、超短句、重復字符、或快捷回復語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天格科技(杭州)有限公司,未經天格科技(杭州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410401416.4/1.html,轉載請聲明來源鉆瓜專利網。





