[發明專利]一種廣告過濾系統及其過濾方法無效
| 申請號: | 201210004667.X | 申請日: | 2012-01-10 |
| 公開(公告)號: | CN102591983A | 公開(公告)日: | 2012-07-18 |
| 發明(設計)人: | 吳華鵬;曾明;劉宇 | 申請(專利權)人: | 鳳凰在線(北京)信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京瑞思知識產權代理事務所(普通合伙) 11341 | 代理人: | 李濤 |
| 地址: | 100029 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 廣告 過濾 系統 及其 方法 | ||
技術領域
本發明涉及一種廣告過濾系統及其過濾方法,尤其涉及一種針對互聯網互動產品的特點,對灌水及商業廣告等信息進行準確過濾的過濾系統及其過濾方法,屬于網絡信息安全技術領域。
背景技術
現階段,互聯網上各大論壇、博客等都面臨著廣告帖的大量灌入,極度影響用戶的互動體驗。一般,論壇、博客都有提供給版主刪除廣告、違法信息的操作后臺,但是人工不能保證及時的屏蔽廣告。本發明正是嵌入在這樣的操作后臺,使用多種方法提取文本特征。這些方法可以看做弱分類器,根據Boosting思想,我們使用人工神經網絡將多種識別方法自適應融合。本發明識別速度快、識別率高,支持無人工操作。
目前,各個網站針對此情況一般都是采用如下的技術措施:
1.將發帖過多或間隔時間過短的帖子交予人工審查。這種方法可以對一部分廣告做到過濾,但是面對過多用戶同時發布多篇廣告帖時,需要審查的帖子數量過多,管理員壓力巨大,審查時間也會過長。
2.網友舉報發布廣告帖的用戶:對于廣告帖,網友可以進行舉報,每人可舉報一次,當舉報數超過一定數量時,對被舉報用戶進行禁言措施。此種方法需要活躍用戶自發參與,但若數量太大或馬甲重復發帖,單憑網友力量很難解決。
3.關鍵詞過濾方式:使用常見廣告詞匯作為關鍵詞,包含關鍵詞禁止發布。此種方法只能處理低級廣告,若出現詞變形或繞關鍵詞,則無法識別。
4.使用預先設定的過濾參數,過濾參數不能根據不斷變化的廣告帖自動變化,即使出現過多誤判,也只能人工對參數更新,而不能自我學習,無法適應廣告帖發展趨勢。
5.只是使用預訂參數自動過濾,對人工操作沒有給予考慮:當一些經過過濾系統過濾認為并不存在問題的帖子,可能由于其他規則被人工操作刪除后,由于不會學習人工操作,下次系統遇到相似的帖子仍然不會過濾。
針對現有技術的種種不足,本發明嵌入到互動產品用戶生成內容管理后臺,根據內容及用戶行為過濾廣告帖內容。需要解決如下問題:
1.根據內容特點識別及過濾廣告帖等不良內容;
2.結合用戶歷史及內容歷史提高識別準確度;
3.分析每次人工操作,并在后續過濾中發揮作用;
4.自動對比機器與人工操作結果,自動調整參數。
發明內容
本發明所要解決的技術問題在于提供一種廣告過濾系統及其過濾方法,可以對廣告帖等不良信息進行自動過濾。
為實現上述的發明目的,本發明采用下述的技術方案:
一種廣告過濾系統,其特征在于:
所述廣告過濾系統包括內容輸入接口、特征分析模塊、以及決策計算模塊、數據記錄模塊、信息庫、指令輸出接口、人工操作輸入接口和機器學習模塊;其中,
內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容;
特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量;
信息庫用于存儲用戶生成內容的各項特征數據;
決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;
數據記錄模塊用于將特征數據、分類數據以及人工操作記錄寫入信息庫;
指令輸出接口用于將決策計算模塊判斷的結果整理成顯示/屏蔽操作指令,同步給互聯網互動產品;
人工操作輸入接口用于接收并解析人工修改過濾結果的操作;
機器學習模塊利用每次分析的結果以及人工操作記錄進行學習,并根據學習更新決策計算模塊。
所述內容輸入接口包括:
數據輸入接口,校驗輸入的用戶生成內容數據的數據格式以及完整性;
解析器,解析輸入的用戶生成內容數據,獲得ID、標題、內容、用戶ID、發布時間等信息。
所述特征分析模塊包括:分詞器、相似度分析模塊、文本內容分類模塊、發帖間隔分析模塊、聯系方式分析模塊、URL提取器、URL分析模塊、圖片內容分析模塊以及用戶分析模塊。
所述分詞器使用漢語詞法分析系統對用戶生成內容中的文本內容進行分詞;
所述相似度分析模塊對分詞后的詞進行分析,得到與當前內容相似的內容發布次數,并根據人工操作記錄或相似發布次數得到當前用戶生成內容可能為廣告的相似度特征值。
所述文本內容分類模塊使用分詞后的詞在文本分類特征詞集合進行映射得到詞向量,使用支持向量機對詞向量進行分類,得出的刪除概率作為文本內容分類模塊特征值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鳳凰在線(北京)信息技術有限公司,未經鳳凰在線(北京)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210004667.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種終端接入方法及裝置
- 下一篇:抗開裂低煙無鹵阻燃聚烯烴護套料及其制備方法





