[發(fā)明專利]一種信息過濾方法及裝置有效

申請?zhí)枺?/td>	201310247624.9	申請日：	2013-06-20
公開（公告）號：	CN103347009A	公開（公告）日：	2013-10-09
發(fā)明（設(shè)計）人：	戴明洋	申請（專利權(quán)）人：	新浪網(wǎng)技術(shù)（中國）有限公司
主分類號：	H04L29/06	分類號：	H04L29/06
代理公司：	北京同達信恒知識產(chǎn)權(quán)代理有限公司 11291	代理人：	郭潤湘
地址：	100080 北京市海淀***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種信息過濾方法裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

技術(shù)領(lǐng)域

本申請涉及通信技術(shù)領(lǐng)域，尤其涉及一種信息過濾方法及裝置。

背景技術(shù)

目前，信息過濾技術(shù)通常用于論壇、博客、郵件等應(yīng)用場景，用于過濾用戶發(fā)布的非法信息，如敏感信息、廣告信息、反動信息、色情信息等。

在現(xiàn)有技術(shù)中，信息過濾的方法主要有以下兩種：

第一種，規(guī)則過濾方法。該方法主要是預(yù)先在黑名單中添加非法分詞，在過濾時，判斷待過濾信息是否包含該黑名單中的非法分詞，若包含，則確定該待過濾信息是非法信息，過濾該待過濾信息，否則，確定該待過濾信息不是非法信息。

但是，上述第一種方法需要人工維護黑名單中的非法分詞，需耗費較大的人力資源，而且效率較低。

第二種，機器學習過濾方法。該方法根據(jù)待過濾信息中包含的分詞，以及預(yù)先訓練出的過濾模型，判斷待過濾信息是否為非法信息，若是，則過濾該待過濾信息。

但是，在上述第二種方法中，過濾模型的訓練是一個長期而大量重復(fù)的工作，因此，對于一些實時性很強、臨時出現(xiàn)的需要過濾的非法信息來說，第二種方法并不能有效的過濾。

另外，雖然現(xiàn)有技術(shù)中也存在將上述兩種方法結(jié)合得到的第三種信息過濾方法，但是，現(xiàn)有技術(shù)中的第三種信息過濾方法只是將上述兩種方法進行前后依次使用，即，采用上述兩種方法中的一種對待過濾信息進行判斷，若判定其不是非法信息，則再采用另一種對待過濾信息進行再次判斷，若仍判定其不是非法信息，則將其發(fā)布，兩次判斷中只要有一次判定其為非法信息，則將其過濾。可見，現(xiàn)有技術(shù)中的第三種方法仍需要耗費大量的人力資源來維護黑名單，而且，對于問答和論壇這種實時性較強的應(yīng)用場景而言，由于用戶發(fā)布的信息需要經(jīng)過兩次判斷，因此也降低了信息發(fā)布的時效性。

發(fā)明內(nèi)容

本發(fā)明實施例提供一種信息過濾方法及裝置，用以解決現(xiàn)有技術(shù)中維護黑名單的效率較低，信息發(fā)布的時效性較低的問題。

本發(fā)明實施例提供的一種信息過濾方法，包括：

獲取待過濾信息；

判斷所述待過濾信息中是否包含第一黑名單中預(yù)設(shè)的敏感分詞；

若是，則過濾所述待過濾信息；

否則，發(fā)布所述待過濾信息，并根據(jù)所述待過濾信息中包含的分詞以及預(yù)先訓練的過濾模型，判斷所述待過濾信息是否為非法信息，若是，則刪除發(fā)布的所述待過濾信息，否則保持所述待過濾信息的發(fā)布狀態(tài)不變。

本發(fā)明實施例提供的一種信息過濾裝置，包括：

獲取模塊，用于獲取待過濾信息；

規(guī)則過濾模塊，用于判斷所述獲取模塊獲取的待過濾信息中是否包含第一黑名單中預(yù)設(shè)的敏感分詞，若是，則過濾所述待過濾信息，否則，發(fā)布所述待過濾信息；

機器過濾模塊，用于當所述規(guī)則過濾模塊發(fā)布所述待過濾信息時，根據(jù)所述待過濾信息中包含的分詞以及預(yù)先訓練的過濾模型，判斷所述待過濾信息是否為非法信息，若是，則刪除發(fā)布的所述待過濾信息，否則保持所述待過濾信息的發(fā)布狀態(tài)不變。

本發(fā)明實施例提供一種信息過濾方法及裝置，該方法先通過規(guī)則過濾方法判斷待過濾信息中是否包含第一黑名單中預(yù)設(shè)的敏感分詞，若包含則直接將其過濾，否則，通過機器學習過濾方法判斷其是否為非法信息，若是，則刪除發(fā)布的該待過濾信息，否則保持該待過濾信息的發(fā)布狀態(tài)。通過上述方法，需要維護的第一黑名單中僅包括敏感分詞，從而有效減少了需要維護的黑名單中的分詞的數(shù)量，提高了維護黑名單的效率，而且，在通過規(guī)則過濾方法確定待過濾信息中不包含敏感分詞時，可直接發(fā)布該信息，即使該信息是除敏感信息以外的其他非法信息，后續(xù)也可通過機器學習過濾方法將發(fā)布的該信息刪除，因此提高了信息發(fā)布的時效性。

附圖說明

圖1為本發(fā)明實施例提供的信息過濾過程；

圖2為本發(fā)明實施例提供的信息過濾的詳細過程；

圖3為本發(fā)明實施例提供的信息過濾裝置結(jié)構(gòu)示意圖。

具體實施方式

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新浪網(wǎng)技術(shù)（中國）有限公司，未經(jīng)新浪網(wǎng)技術(shù)（中國）有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310247624.9/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：視頻共享控制方法和裝置
下一篇：一種基于文件破碎加密的文檔安全保護方法

同類專利

專利分類

H 電學

H04 電通信技術(shù)
H04L 數(shù)字信息的傳輸，例如電報通信
H04L29-00 H04L 1/00至H04L 27/00單個組中不包含的裝置、設(shè)備、電路和系統(tǒng)
H04L29-02 .通信控制；通信處理
H04L29-12 .以數(shù)據(jù)終端為特征的
H04L29-14 .故障的應(yīng)對措施
H04L29-04 ..用于多條通信線路的
H04L29-06 ..以協(xié)議為特征的

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】