[發明專利]一種互聯網圖片廣告過濾系統及其過濾方法有效
| 申請號: | 201210004669.9 | 申請日: | 2012-01-10 |
| 公開(公告)號: | CN102419777A | 公開(公告)日: | 2012-04-18 |
| 發明(設計)人: | 吳華鵬;曾明;劉宇;史金城 | 申請(專利權)人: | 鳳凰在線(北京)信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q30/02 |
| 代理公司: | 北京瑞思知識產權代理事務所(普通合伙) 11341 | 代理人: | 李濤 |
| 地址: | 100029 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 互聯網 圖片 廣告 過濾 系統 及其 方法 | ||
技術領域
本發明涉及一種互聯網圖片廣告過濾系統及其過濾方法,尤其涉及一種針對互聯網互動產品的特點,對灌水及商業廣告等信息進行準確過濾的過濾系統及其過濾方法,屬于網絡信息安全技術領域。
背景技術
現階段,互聯網上各大論壇、博客等都面臨著廣告帖的大量灌入,極度影響用戶的互動體驗。一般,論壇、博客都有提供給版主刪除廣告、違法信息的操作后臺,但是人工不能保證及時的屏蔽廣告。本發明正是嵌入在這樣的操作后臺,使用多種方法提取文本特征。這些方法可以看做弱分類器,根據Boosting思想,我們使用人工神經網絡將多種識別方法自適應融合。本發明識別速度快、識別率高,支持無人工操作。
目前,各個網站針對此情況一般都是采用如下的技術措施:
1.將發帖過多或間隔時間過短的帖子交予人工審查。這種方法可以對一部分廣告做到過濾,但是面對過多用戶同時發布多篇廣告帖時,需要審查的帖子數量過多,管理員壓力巨大,審查時間也會過長。
2.網友舉報發布廣告帖的用戶:對于廣告帖,網友可以進行舉報,每人可舉報一次,當舉報數超過一定數量時,對被舉報用戶進行禁言措施。此種方法需要活躍用戶自發參與,但若數量太大或馬甲重復發帖,單憑網友力量很難解決。
3.關鍵詞過濾方式:使用常見廣告詞匯作為關鍵詞,包含關鍵詞禁止發布。此種方法只能處理低級廣告,若出現詞變形或繞關鍵詞,則無法識別。
4.使用預先設定的過濾參數,過濾參數不能根據不斷變化的廣告帖自動變化,即使出現過多誤判,也只能人工對參數更新,而不能自我學習,無法適應廣告帖發展趨勢。
5.只是使用預訂參數自動過濾,對人工操作沒有給予考慮:當一些經過過濾系統過濾認為并不存在問題的帖子,可能由于其他規則被人工操作刪除后,由于不會學習人工操作,下次系統遇到相似的帖子仍然不會過濾。
針對現有技術的種種不足,本發明嵌入到互動產品用戶生成內容管理后臺,根據內容及用戶行為過濾廣告帖內容。需要解決如下問題:
1.根據內容特點識別及過濾廣告帖等不良內容;
2.結合用戶歷史及內容歷史提高識別準確度;
3.根據圖片的發布特征識別廣告帖。
發明內容
本發明所要解決的技術問題在于提供一種互聯網圖片廣告過濾系統及其過濾方法,可以對廣告帖等不良信息進行自動過濾。
為實現上述的發明目的,本發明采用下述的技術方案:
一種互聯網圖片廣告過濾系統,包括內容輸入接口、特征分析模塊、以及決策計算模塊、數據記錄模塊、信息庫、指令輸出接口、人工操作輸入接口和機器學習模塊;其中,
內容輸入接口用于接收來自于互聯網互動產品的用戶生成內容;
特征分析模塊用于分析用戶生成內容,提取用戶生成內容的多種特征,并根據特征歷史情況及人工操作記錄計算特征值,生成特征向量;
信息庫用于存儲用戶生成內容的各項特征數據;
決策計算模塊用于根據特征分析模塊生成的特征向量綜合判斷是否對用戶生成內容進行過濾;
指令輸出接口用于將決策計算模塊判斷的結果整理成顯示/屏蔽操作指令,同步給互聯網互動產品;
所述內容輸入接口包括:
數據輸入接口,校驗輸入的用戶生成內容數據的數據格式以及完整性;
解析器,解析輸入的用戶生成內容數據,獲得ID、標題、內容、用戶ID、發布時間等信息。
所述特征分析模塊包括:發帖間隔分析模塊、URL提取器、URL分析模塊、圖片內容分析模塊以及用戶分析模塊。
發帖間隔分析模塊根據用戶ID對比該用戶上次發帖時間與本次時間,得到發帖時間間隔,并根據發帖時間間隔得到當前用戶生成內容可能為廣告的發帖間隔特征值;
URL提取器從解析后的數據中識別出所有URL;
URL分析模塊對每個URL進行次數統計,并根據出現次數最多的URL次數得到當前用戶生成內容可能為廣告的URL特征值。
所述圖片內容分析模塊從解析后的用戶生成內容數據的圖片中選取一個或多個特定點,計算圖片校驗值;
對該圖片校驗值進行分析,得到與當前圖片校驗值相同的值出現過多少次就代表相同圖片發布過多少次,并根據相同圖片發布次數得到當前用戶生成內容可能為廣告的圖片特征值。
所述用戶分析模塊從用戶庫中查詢用戶發文記錄,根據用戶發帖被刪除和通過次數進行計算用戶特征值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鳳凰在線(北京)信息技術有限公司,未經鳳凰在線(北京)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210004669.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可整體運輸的房屋及其運輸車輛
- 下一篇:車載多媒體旋鈕及旋鈕調節裝置





