[發明專利]基于帖子的出現規律來檢測垃圾帖子的方法及設備有效
| 申請號: | 201010214189.6 | 申請日: | 2010-06-29 |
| 公開(公告)號: | CN102315953A | 公開(公告)日: | 2012-01-11 |
| 發明(設計)人: | 舒迅;帥帥;尹佳;王波;羅亮 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | H04L12/24 | 分類號: | H04L12/24;H04L12/26;H04L29/06;G06F17/30 |
| 代理公司: | 北京漢昊知識產權代理事務所(普通合伙) 11370 | 代理人: | 羅朋 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 帖子 出現 規律 檢測 垃圾 方法 設備 | ||
技術領域
本發明涉及互聯網技術領域,具體來說,涉及一種用于檢測社區網絡中垃圾帖子的方法及裝置。
背景技術
隨著互聯網技術的不斷發展,社區網絡(SNS,Social?Network?Service)越來越普及,逐漸成為人們日常生活的一部分。然而,基于社區網絡的垃圾帖子泛濫以及由此帶來的對真正有用信息的干擾一直是伴隨著社區網絡的蓬勃發展而產生的不利方面。為此,為了有效地抑制社區網絡中垃圾信息的產生,現有技術至少包括如下過濾社區網絡中帖子中垃圾內容的方法:
(1)臟詞匹配,即在用戶將帖子發布到社區網絡上之前,經過至少一次臟詞過濾,將所述帖子內容中與臟詞索引庫中相匹配的詞匯認定為垃圾內容進行先行屏蔽,然后將經過過濾處理后的帖子成功地發布到社區網絡上;對于在臟詞過濾中未過濾出的垃圾內容,只能在后期對發布到社區網絡上的帖子進行人工或機器巡查的方式進行檢測,以實現對社區網絡中帖子中垃圾內容的過濾。
(2)語義分析,即在用戶將帖子發布到社區網絡上之前,采用語義分析的方式以預定的語義分析條件對所述帖子的內容進行判斷,將所述帖子的內容中滿足所述預定的語義分析條件的內容作為垃圾內容進行屏蔽,然后將經過屏蔽處理后的帖子成功地發布到社區網絡上。
有關利用語義分析方法來對社區網絡的帖子中垃圾內容的屏蔽的詳細內容可以參見公開號為CN101510879A中國發明專利申請。
可見,現有技術都是基于單個帖子的內容進行判斷,實現對該帖子中垃圾內容的屏蔽,即現有技術僅局限于在單個帖子的范圍內對該帖子的內容進行過濾,因而不能適用于這樣一種情形:單個帖子的內容的垃圾特征不明顯或者較隱蔽(例如軟文帖子),但實際上其在整個社區網絡中存在大量的需要刪除的重復帖子。因此,需要一種能夠快速并準確地檢測社區網絡中垃圾帖子的方法及裝置。
發明內容
本發明的目的是為了克服現有技術的上述缺陷,提供一種基于帖子在社區網絡中的出現規律來檢測垃圾帖子的方法及設備,提高了判斷結果的準確度。
根據本發明的一個方面,提供一種用于檢測社區網絡中垃圾帖子的方法,該方法包括:a.對帖子進行檢測,根據該帖子在一個或多個社區網絡中的出現規律來判斷該帖子是否為垃圾帖子。
在一個優選實施例中,該方法包括:
a1.根據預定語義規則對該帖子進行識別,提取其中的內容特征;
a2.根據所述帖子的內容特征來查詢與該帖子在社區網絡中的出現規律;
a3.基于第一預定規律根據該帖子在所述社區網絡中的出現規律來判斷所述帖子是否為垃圾帖子。
根據本發明的另一方面,提供了一種用于檢測社區網絡中垃圾帖子的設備,其中,帖子檢測裝置,用于對帖子進行檢測,根據該帖子在一個或多個社區網絡中的出現規律來判斷該帖子是否為垃圾帖子。
在一個優選實施例中,帖子檢測裝置包括:
特征識別裝置,用于根據預定語義規則對該帖子進行識別,提取其中的內容特征;
規律查詢裝置,用于根據所述帖子的內容特征來查詢與該帖子在社區網絡中的出現規律;
判斷裝置,用于基于第一預定規律根據根據該帖子在所述社區網絡中的出現規律來判斷所述帖子是否為垃圾帖子。
本發明根據帖子的內容特征及其在社區網絡中的出現規律來判斷所述帖子是否為垃圾帖子,避免了孤立地對單個帖子的內容進行臟詞匹配或者語義分析所造成的無法檢測出在社區網絡中存在大量重復帖子的情形,提高了對垃圾帖子的判斷準確度。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
圖1為根據本發明的設備管理多個社區網絡的示意圖。
圖2為根據本發明的一個方面的用戶檢測社區網絡中垃圾帖子的方法的流程圖。
圖3為根據本發明根據本發明一個方面的在社區網絡或出現規律庫中檢測垃圾帖子的系統的示意圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
下面結合具體實施例和附圖對本發明作進一步說明,但不應以此限制本發明的保護范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010214189.6/2.html,轉載請聲明來源鉆瓜專利網。





