[發(fā)明專利]一種信息過濾方法及裝置有效
| 申請?zhí)枺?/td> | 201310247624.9 | 申請日: | 2013-06-20 |
| 公開(公告)號: | CN103347009A | 公開(公告)日: | 2013-10-09 |
| 發(fā)明(設(shè)計)人: | 戴明洋 | 申請(專利權(quán))人: | 新浪網(wǎng)技術(shù)(中國)有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06 |
| 代理公司: | 北京同達信恒知識產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 信息 過濾 方法 裝置 | ||
技術(shù)領(lǐng)域
本申請涉及通信技術(shù)領(lǐng)域,尤其涉及一種信息過濾方法及裝置。
背景技術(shù)
目前,信息過濾技術(shù)通常用于論壇、博客、郵件等應(yīng)用場景,用于過濾用戶發(fā)布的非法信息,如敏感信息、廣告信息、反動信息、色情信息等。
在現(xiàn)有技術(shù)中,信息過濾的方法主要有以下兩種:
第一種,規(guī)則過濾方法。該方法主要是預(yù)先在黑名單中添加非法分詞,在過濾時,判斷待過濾信息是否包含該黑名單中的非法分詞,若包含,則確定該待過濾信息是非法信息,過濾該待過濾信息,否則,確定該待過濾信息不是非法信息。
但是,上述第一種方法需要人工維護黑名單中的非法分詞,需耗費較大的人力資源,而且效率較低。
第二種,機器學習過濾方法。該方法根據(jù)待過濾信息中包含的分詞,以及預(yù)先訓練出的過濾模型,判斷待過濾信息是否為非法信息,若是,則過濾該待過濾信息。
但是,在上述第二種方法中,過濾模型的訓練是一個長期而大量重復(fù)的工作,因此,對于一些實時性很強、臨時出現(xiàn)的需要過濾的非法信息來說,第二種方法并不能有效的過濾。
另外,雖然現(xiàn)有技術(shù)中也存在將上述兩種方法結(jié)合得到的第三種信息過濾方法,但是,現(xiàn)有技術(shù)中的第三種信息過濾方法只是將上述兩種方法進行前后依次使用,即,采用上述兩種方法中的一種對待過濾信息進行判斷,若判定其不是非法信息,則再采用另一種對待過濾信息進行再次判斷,若仍判定其不是非法信息,則將其發(fā)布,兩次判斷中只要有一次判定其為非法信息,則將其過濾。可見,現(xiàn)有技術(shù)中的第三種方法仍需要耗費大量的人力資源來維護黑名單,而且,對于問答和論壇這種實時性較強的應(yīng)用場景而言,由于用戶發(fā)布的信息需要經(jīng)過兩次判斷,因此也降低了信息發(fā)布的時效性。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種信息過濾方法及裝置,用以解決現(xiàn)有技術(shù)中維護黑名單的效率較低,信息發(fā)布的時效性較低的問題。
本發(fā)明實施例提供的一種信息過濾方法,包括:
獲取待過濾信息;
判斷所述待過濾信息中是否包含第一黑名單中預(yù)設(shè)的敏感分詞;
若是,則過濾所述待過濾信息;
否則,發(fā)布所述待過濾信息,并根據(jù)所述待過濾信息中包含的分詞以及預(yù)先訓練的過濾模型,判斷所述待過濾信息是否為非法信息,若是,則刪除發(fā)布的所述待過濾信息,否則保持所述待過濾信息的發(fā)布狀態(tài)不變。
本發(fā)明實施例提供的一種信息過濾裝置,包括:
獲取模塊,用于獲取待過濾信息;
規(guī)則過濾模塊,用于判斷所述獲取模塊獲取的待過濾信息中是否包含第一黑名單中預(yù)設(shè)的敏感分詞,若是,則過濾所述待過濾信息,否則,發(fā)布所述待過濾信息;
機器過濾模塊,用于當所述規(guī)則過濾模塊發(fā)布所述待過濾信息時,根據(jù)所述待過濾信息中包含的分詞以及預(yù)先訓練的過濾模型,判斷所述待過濾信息是否為非法信息,若是,則刪除發(fā)布的所述待過濾信息,否則保持所述待過濾信息的發(fā)布狀態(tài)不變。
本發(fā)明實施例提供一種信息過濾方法及裝置,該方法先通過規(guī)則過濾方法判斷待過濾信息中是否包含第一黑名單中預(yù)設(shè)的敏感分詞,若包含則直接將其過濾,否則,通過機器學習過濾方法判斷其是否為非法信息,若是,則刪除發(fā)布的該待過濾信息,否則保持該待過濾信息的發(fā)布狀態(tài)。通過上述方法,需要維護的第一黑名單中僅包括敏感分詞,從而有效減少了需要維護的黑名單中的分詞的數(shù)量,提高了維護黑名單的效率,而且,在通過規(guī)則過濾方法確定待過濾信息中不包含敏感分詞時,可直接發(fā)布該信息,即使該信息是除敏感信息以外的其他非法信息,后續(xù)也可通過機器學習過濾方法將發(fā)布的該信息刪除,因此提高了信息發(fā)布的時效性。
附圖說明
圖1為本發(fā)明實施例提供的信息過濾過程;
圖2為本發(fā)明實施例提供的信息過濾的詳細過程;
圖3為本發(fā)明實施例提供的信息過濾裝置結(jié)構(gòu)示意圖。
具體實施方式
本發(fā)明實施例提供一種信息過濾方法及裝置,該方法先通過規(guī)則過濾方法判斷待過濾信息中是否包含第一黑名單中預(yù)設(shè)的敏感分詞,若包含則直接將其過濾,否則,通過機器學習過濾方法判斷其是否為非法信息,若是,則刪除發(fā)布的該待過濾信息,否則保持該待過濾信息的發(fā)布狀態(tài)。通過上述方法,需要維護的第一黑名單中僅包括敏感分詞,從而有效減少了需要維護的黑名單中的分詞的數(shù)量,提高了維護黑名單的效率,而且,在通過規(guī)則過濾方法確定待過濾信息中不包含敏感分詞時,可直接發(fā)布該信息,即使該信息是除敏感信息以外的其他非法信息,后續(xù)也可通過機器學習過濾方法將發(fā)布的該信息刪除,因此提高了信息發(fā)布的時效性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新浪網(wǎng)技術(shù)(中國)有限公司,未經(jīng)新浪網(wǎng)技術(shù)(中國)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310247624.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:視頻共享控制方法和裝置
- 下一篇:一種基于文件破碎加密的文檔安全保護方法
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





