[發明專利]一種垃圾內容過濾的方法及裝置無效
| 申請號: | 200910080732.5 | 申請日: | 2009-03-26 |
| 公開(公告)號: | CN101510879A | 公開(公告)日: | 2009-08-19 |
| 發明(設計)人: | 李京晶;于章濤;張萌萌;祝銳;趙琳霖 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;H04L29/08;H04L12/24 |
| 代理公司: | 北京凱特來知識產權代理有限公司 | 代理人: | 鄭立明 |
| 地址: | 518028廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 垃圾 內容 過濾 方法 裝置 | ||
技術領域
本發明涉及互聯網技術領域,具體地說,涉及一種垃圾內容過濾的方法及裝置。
背景技術
目前,互聯網技術中針對社區垃圾內容過濾的手段,一般采用傳統的過濾方式。結合圖1所示,用戶發帖的內容在發布到網絡上之前,首先要經過一級臟詞過濾,將帖子中與一級臟詞匹配的詞匯作為垃圾詞匯進行屏蔽;其次,對經過一級臟詞過濾處理后的內容進行人工審核階段的二級臟詞過濾,并將所述帖子中與二級臟詞匹配的詞匯作為垃圾詞匯再次屏蔽掉;對經過二級臟詞過濾處理后內容將被成功發布到網絡上;對于在一級或二級臟詞過濾中未過濾出的垃圾內容,只能依靠在后期對發布到網絡上的帖子進行人工或機器的巡查的方式進行刪除,以實現對社區垃圾內容的過濾。
在實現本發明的過程中,發明人發現,上述現有技術存在以下缺點:
(1)對用戶發出的帖子內容進行一級臟詞過濾時,由于目前一級臟詞過濾階段,只能將帖子中的內容與臟詞數據庫中現有臟詞進行一對一完全匹配的方式進行過濾,若用戶的帖子中存在一些臟詞數據庫中未保存的新的垃圾詞匯,這樣在一級臟詞過濾處理中就過濾不到;
對于人工審核的二級臟詞過濾階段,仍單純的依靠通過臟詞匹配的方式進行過濾,所以同樣存在一級臟詞過濾中的問題。在一級或二級臟詞匹配過程中,未檢查出的新的垃圾詞匯會作為符合發布要求的帖子發布到網絡上,只能依靠后期的人工或機器巡查進行刪除,并相應的添加到一級或二級臟詞數據庫中。所以現有技術中這種依靠臟詞過濾的方式來過濾垃圾內容具有被動性,并且導致過濾覆蓋面的局限性;
(2)已發布到網絡上的帖子內容的后期巡查過程,也存在一定的被動性,管理服務器要主動地對發布到網絡上的帖子進行瀏覽和巡查,逐一對發現的垃圾詞匯進行刪除,所以加大了勞動力的投入以及機器維護方面的資本。
發明內容
本發明要解決的技術問題是:提供一種垃圾內容過濾的方法及裝置,能夠有效地實現社區垃圾內容的屏蔽,節約了人力和物力的投入資本。
本發明的技術方案如下所述:
一種垃圾內容過濾的方法,該方法包括:
通過預定的語義分析條件對發帖內容進行判斷,將所述發帖內容中滿足所述預定的語義分析條件的內容,作為垃圾內容進行屏蔽;
將經過屏蔽處理后的所述發帖內容經過審核后,發布到網絡上。
進一步地,所述預定的語義分析條件包括:
(a)所述發帖內容是否滿足語法的要求;或
(b)是否具有能夠描述垃圾詞匯的特征;或
(c)是否包含詞匯出現頻率大于頻率標準值的詞匯內容;或
(d)攜帶網絡鏈接地址的數量是否超過設定的參考值;
或者上述(a)、(b)、(c)、(d)的任意組合。
進一步地,所述預定的語義分析條件的生成過程,具體包括:
當所述預定的語義分析條件為(b)時,通過收集大量被過濾掉的垃圾內容,將所述內容按照類別進行分類;針對每個類別中的所述內容,獲得具有能夠描述垃圾詞匯的特征;或者,
當所述預定的語義分析條件為(c)時,通過對垃圾內容中垃圾詞匯的出現次數進行記錄,獲得能夠判斷所述發帖內容中是否包含垃圾詞匯的頻率標準值;或者,
當所述預定的語義分析條件為(d)時,通過對垃圾內容中攜帶網絡鏈接地址的數量進行記錄,獲得能夠判別所述發帖內容中是否包含垃圾內容的參考值。
進一步地,通過預定的語義分析條件對發帖內容進行判斷,將所述發帖內容中滿足所述預定的語義分析條件的內容,作為垃圾內容進行屏蔽之前,所述方法還包括:
對發帖內容的重復性進行判斷,如所述發帖內容與之前發帖內容重復時,將所述重復的內容自動屏蔽;否則,不做任何處理;
對經過重復性判斷的發帖內容進行一級臟詞匹配,如匹配到,將所述發帖內容屏蔽;否則,對經過一級臟詞過濾后的發帖內容進行語義分析。
進一步地,將經過屏蔽處理后的所述發帖內容經過審核后,發布到網絡上,具體過程包括:
對經過屏蔽處理后的所述發帖內容,分別通過二級臟詞以及網頁地址黑名單進行過濾,并根據過濾結果分別對帖子評分,將所述評分小于標準值的帖子屏蔽后,發送給人工審核;將所述評分大于等于標準值的帖子發布到網絡上。
進一步地,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910080732.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種機頂盒軟件升級方法
- 下一篇:直流斷路器特性參數自動測試系統
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





