[發明專利]網絡文本服務中敏感詞過濾的方法無效
| 申請號: | 201110183331.X | 申請日: | 2011-06-30 |
| 公開(公告)號: | CN102253988A | 公開(公告)日: | 2011-11-23 |
| 發明(設計)人: | 張寧 | 申請(專利權)人: | 北京新媒傳信科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 文本 服務 敏感 過濾 方法 | ||
技術領域
本發明涉及網絡信息過濾技術領域,特別是涉及一種網絡文本服務中敏感詞過濾的方法。
背景技術
隨著互聯網的飛速發展,基于文本的網絡服務已經深入到人們生活的各個方面。由于網絡文本服務具有內容豐富、互動性強、實時性強的優勢,已取代郵件、短信或電話,成為人們日常溝通中(尤其是陌生人群中)最主要的交流方式。如即時通訊(Instant?Messaging,簡稱IM)、論壇、電子郵件、博客、微博等網絡服務作為一種便捷的溝通方式已經滲透到人們工作和生活的各個領域,甚至發展出了相應的網絡社區,也成為移動互聯網的一項重要業務。
但是網絡文本服務在給人們帶來無障礙交流便利的同時,不可避免地也會散播一些未經證實的消息或不良內容,很多情況下均會出現違反國家法律法規并損害公眾利益的言行,為了維護國家法律和公民權益,越來越多的網絡文本服務中集成了敏感詞過濾功能。
常見的敏感詞過濾功能通常是采用字典方式,簡單地對服務中的文本消息進行關鍵詞匹配,需要反復地提取詞語并逐詞比對。這種反復執行的敏感詞查找操作會嚴重降低網絡服務的性能,影響用戶的使用速度;此外,一旦詞語提取不當,也會錯誤屏蔽掉用戶信息,降低用戶通訊質量。為使得用戶的網絡服務不因敏感詞過濾而降低速度和質量,保護合法用戶的正當權益,在信息過濾的同時不影響到絕大多數用戶的正常使用,準確有效的敏感詞過濾顯得尤為重要。
發明內容
(一)要解決的技術問題
針對現有技術的缺點,本發明為了解決現有技術中的敏感詞過濾方式會降低網絡服務性能的問題,提供了一種網絡文本服務中敏感詞過濾的方法,將敏感詞庫以嵌套哈希表的方式加載到內存中,通過哈希表的逐級比對判斷是否出現敏感詞,使得敏感詞過濾速度僅與消息文本長度有關,大大提高了過濾效率,保證了網絡服務的性能。
(二)技術方案
為解決上述技術問題,本發明具體采用如下技術方案進行:
一種網絡文本服務中敏感詞過濾的方法,該方法包括步驟:
S1,將敏感詞寫入數據庫中;
S2,在網絡文本服務中開辟一個新的線程讀取數據庫中的敏感詞;
S3,把敏感詞數據以嵌套哈希表的方式載入內存中;
S4,所述線程將網絡文本服務接收到的用戶文本消息與內存中敏感詞的嵌套哈希表逐級比較,判斷所述文本消息中是否出現了敏感詞;若出現敏感詞則執行步驟S5,否則跳至步驟S6;
S5,對包含敏感詞的所述文本消息進行處理后結束;
S6,正常發送所述文本消息后結束。
優選地,步驟S1中,在數據庫中更新敏感詞時,記錄敏感詞更新時間、生效時間、操作方式以及此次數據庫操作時間。
優選地,步驟S2中,所述線程根據各敏感詞的第一個字建立第一級哈希表。
優選地,步驟S3中,以所述第一級哈希為首表,依次讀取各敏感詞的各個字建立各級哈希表,同時建立各級哈希表之間的連接。
優選地,步驟S5中,所述處理具體為:當所述文本消息中出現敏感詞時,用特殊字符取代敏感詞后進行轉發、或者拋棄含有敏感詞的文本消息并返回發送者一個提示。
優選地,步驟S2中,更新敏感詞后所述線程再次讀取數據庫時,只讀取所述數據庫操作時間大于最后一次讀取數據庫時間且敏感詞生效時間小于當前時間的敏感詞,把新增加的敏感詞重新插入哈希表中。
優選地,所述最后一次讀取數據庫時間記錄在哈希表頭中。
優選地,所述線程每經過一預定的時間后就再次讀取數據庫。
優選地,數據庫更新的同時通知所述線程再次讀取數據庫。
優選地,所述操作方式包括:追加、刪除或修正。
(三)有益效果
本發明的方法將敏感詞庫以嵌套哈希表的方式加載到內存中,通過哈希表的逐級比對使得敏感詞過濾速度僅與消息文本長度有關,大大提高了過濾效率,保證了網絡服務的性能;此外,由于采用獨立的線程進行控制,可選擇性地對敏感詞庫進行更新并實時應用到網絡文本服務中,從而進一步地提高了服務性能。
附圖說明
圖1為本發明中敏感詞過濾的方法流程圖。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發明的一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京新媒傳信科技有限公司,未經北京新媒傳信科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110183331.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據統計方法及裝置
- 下一篇:擴充卡擋片固定裝置





