[發明專利]一種網絡不良信息的過濾方法及裝置有效
| 申請號: | 201010621142.1 | 申請日: | 2010-12-24 |
| 公開(公告)號: | CN102567304A | 公開(公告)日: | 2012-07-11 |
| 發明(設計)人: | 鄭妍;于曉明;楊建武 | 申請(專利權)人: | 北大方正集團有限公司;北京大學;北京北大方正電子有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 不良信息 過濾 方法 裝置 | ||
技術領域
本發明涉及計算機信息處理及信息過濾技術領域,尤其涉及一種基于統計與規則的網絡不良信息的過濾方法及裝置。
背景技術
隨著互聯網的迅速發展,信息傳播速度也隨之加快。由于互聯網上的內容良莠不齊,例如:廣告、色情、暴力以及反動為主的不良信息都難以杜絕,并漸漸以更為隱蔽的方式擴散,因此,抑制不良信息的擴散以及凈化互聯網絡空間就顯得十分重要。對于互聯網中海量的數據信息,如果采用人工的方法去過濾互聯網上的不良信息,則需要耗費巨大的人力物力。因此,基于互聯網內容的不良信息的自動過濾技術成為近年來研究的熱點。
目前,基于互聯網內容的不良信息自動過濾技術通常采用如下兩種方式:
(1)基于關鍵字匹配的過濾方法;該方法在判定過程中,采取精確匹配的策略,過濾掉出現關鍵字的文本。采用該方法過濾互聯網內容的不良信息速度快,簡單易操作。
(2)基于統計的文本分類模型的過濾方法;該方法中基于統計的不良文本過濾模型本質上是一個兩類的文本分類問題,文本分類是自然語言處理領域的研究重點方向,有大量經典模型可供參考。基于統計的文本分類模型從理論角度來看應該是效果不錯的方法,但在實際應用中性能卻不理想,誤判情況十分突出,主要原因分析如下:
(1)正向與負向語料不均衡。其中,正向語料只包含了少量類別,例如:廣告、色情、暴力、反動以及用戶所關心的不良信息為主。負向語料則包含了大量類別,例如:按照文本內容可劃分為:經濟、體育、政治、醫藥、藝術、歷史、政治、文化、環境、交通、計算機、教育、軍事等等。
(2)不良信息的內容表現具有很大的多變性和隱蔽性。發布者經常有意避開常用詞,取而代之,如:同音字,拆分字,非漢字噪音,縮略現象,新詞等。
(3)用戶詞典只提供關鍵詞精確匹配方式,造成判定方法的機械與不靈活。且單一關鍵詞的語義傾向性不具有代表性,誤判率高。比如,當“免費”和“發票”同時出現在上下文環境中要比單一的“發票”更具有說服性。
(4)一些傳統的中文信息處理做法并不適用于基于文本分類的不良信息過濾。如使用一定規模的禁用詞;如特征項只包括雙字以上的詞匯等。
(5)缺少統一的模型,對包括廣告、色情、暴力、反動等不良信息進行綜合過濾。
在實現上述基于互聯網內容的不良信息自動過濾技術的過程中,發明人發現現有技術中,不良信息自動過濾性能無法滿足當前互聯網的過濾需求,且無法實現自動更新。
發明內容
本發明實施例提供一種網絡不良信息的過濾方法及裝置,為達到上述目的,本發明的實施例采用如下技術方案:
一種網絡不良信息的過濾方法,包括:
獲取待過濾文本信息、系統預研模型信息以及用戶反饋模型信息;
對所述待過濾文本信息進行預處理;
將所述預處理后的待過濾文本信息與所述系統預研模型信息進行特征信息匹配,給出第一匹配結果;
將所述預處理后的待過濾文本信息與所述用戶反饋模型信息進行特征信息匹配,給出第二匹配結果;
根據所述第一匹配結果與所述第二匹配結果,對所述待過濾文本信息進行過濾處理。
一種網絡不良信息的過濾裝置,包括:
信息獲取單元,用于獲取待過濾文本信息、系統預研模型信息以及用戶反饋模型信息;
預處理單元,用于對所述待過濾文本信息進行預處理;
第一匹配單元,用于將所述預處理后的待過濾文本信息與所述系統預研模型信息進行特征信息匹配,給出第一匹配結果;
第二匹配單元,用于將所述預處理后的待過濾文本信息與所述用戶反饋模型信息進行特征信息匹配,給出第二匹配結果;
過濾單元,用于根據所述第一匹配結果與所述第二匹配結果,對所述待過濾文本信息進行過濾處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京大學;北京北大方正電子有限公司,未經北大方正集團有限公司;北京大學;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010621142.1/2.html,轉載請聲明來源鉆瓜專利網。





