[發(fā)明專利]一種基于后臺程序的關鍵字/敏感詞過濾方法在審
| 申請?zhí)枺?/td> | 201210369309.9 | 申請日: | 2012-09-28 |
| 公開(公告)號: | CN103714056A | 公開(公告)日: | 2014-04-09 |
| 發(fā)明(設計)人: | 羅偉東;蘇正湘;趙巍;黃飛 | 申請(專利權)人: | 深圳市微訊移通信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518040 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 后臺程序 關鍵字 敏感 過濾 方法 | ||
【技術領域】
本發(fā)明涉及網(wǎng)絡程序應用、web服務端技術領域,尤其涉及一種網(wǎng)站信息檢索過濾攔截應用方案。
【背景技術】
國家對信息安全要求比較高,一部分網(wǎng)絡系統(tǒng)經(jīng)常出現(xiàn)違規(guī)的敏感詞,或者不利于社會和諧的言論,另外互聯(lián)網(wǎng)的開放性也注定了網(wǎng)絡上流通的信息良莠不齊,各種不良信息更是泛濫,如果對網(wǎng)上傳播的涉及到反動、色情、暴力等信息不加監(jiān)管的話,會極大地危害社會穩(wěn)定和青少年身心健康,現(xiàn)有大型網(wǎng)站營運商對于信息管理的方式停留在比較直接簡單階段,直接采用對信息掃描并機械替換,導致一些優(yōu)質信息由于簡單而機械掃描替換原則而被過濾或者攔截,不論是發(fā)出信息的來源者還是對接收信息的受眾來說都是一種信息傳播障礙和壁壘,縱觀全局,我們需要對網(wǎng)絡信息進行監(jiān)管但是需要一種更智能、更接近人工判斷標準的監(jiān)管應用方案。
因為過濾關鍵字機制隨處可見,有時為了避免被攔截或者過濾,發(fā)布者會采用各種方式進行回避:1、中文會用繁體字的方法避開關鍵字掃描;2、在關鍵字中間插入無意思的特殊字符,例如*&#等,而且個數(shù)可變,3、使用諧音或拆字法變換關鍵字,就很難預測發(fā)布者會用的所有規(guī)避方案;而傳統(tǒng)常用的算法也有自身的技術問題:比如隨著時間推移,關鍵字列表會越來越大,如果采用的正則表達式N次掃描,效率非常低,耗時長;在具體應用環(huán)境中,關鍵字有不同的嚴重級別,不可一概而論,有些需要禁止、有些只是需要替換,還有一些僅作記錄即可,但是現(xiàn)在的過濾方案卻無法為關鍵字區(qū)分嚴重級別。
HashMap:基于哈希表(基于哈希算法)的Map接口的實現(xiàn)。此實現(xiàn)提供所有可選的映射操作,并允許使用null鍵、值。此類不保證映射的順序,特別是它不保證該順序恒久不變。此實現(xiàn)假定哈希函數(shù)將元素適當?shù)胤植荚诟魍爸g,可為基本操作(get和put)提供穩(wěn)定的性能。迭代collection視圖所需的時間與HashMap實例的“容量”(桶的數(shù)量)及其大小(鍵-值映射關系數(shù))成比例。
哈希算法:就是把任意長度的輸入(又叫做預映射,pre-image),通過散列算法,變換成固定長度的輸出,該輸出就是散列值。這種轉換是一種壓縮映射,也就是,散列值的空間通常遠小于輸入的空間,不同的輸入可能會散列成相同的輸出,而不可能從散列值來唯一的確定輸入值。簡單的說就是一種將任意長度的消息壓縮到某一固定長度的消息摘要的函數(shù)。
HASH主要用于信息安全領域中加密算法,它把一些不同長度的信息轉化成雜亂的128位的編碼,這些編碼值叫做HASH值.也可以說,hash就是找到一種數(shù)據(jù)內容和數(shù)據(jù)存放地址之間的映射關系。
【發(fā)明內容】
鑒于以上問題,本發(fā)明提出了一種采用哈希表(Hashmap)作為關鍵字存儲匹配集合與關鍵詞匹配算法相結合的關鍵字/敏感詞過濾方法。該方法效率高、關鍵字截取準確、能為關鍵字區(qū)分級別。
本發(fā)明的技術方案是:一種基于后臺程序的關鍵字/敏感詞過濾方法,其特征在于,包括以下步驟:
步驟一:創(chuàng)建兩個集合,首字匹配字符集合的匹配集合和替換字符串映射的映射集合;
在匹配集合中放入所有需要注意或者替換的文字的第一個字,當掃描時遇到首字符合進入才進入到掃描是否需要替換流程;在映射集合中放入相應的自定義替換關鍵字的符號;
步驟二:將掃描到的關鍵字調用增加方法進行處理,截取關鍵字首字母,將關鍵字轉換成詞塊對象(atomBlock)放入匹配集合作為鍵(key),詞塊對象作為值放入匹配集合,若匹配集合中存在此關鍵字則進行分裂切割;
步驟三:對應檢測并過濾,依次從匹配集合中根據(jù)關鍵字首字檢測出對應詞塊對象,過濾掉其中關鍵字,并根據(jù)映射集合將關鍵字替換為自定義字符串,并返回處理完成后的字符串。
所述基于后臺程序的關鍵字/敏感詞過濾方法,其特征在于,所述分裂切割是指切割詞塊對象為包含基本屬性的詞塊、跟隨詞塊、是否匹配的標記。
所述基于后臺程序的關鍵字/敏感詞過濾方法,其特征在于,在匹配集合中定義出記錄、替換、禁止三種規(guī)則類型的子集合進行過濾,并在定義關鍵字時同時給出一個級別屬性。
所述基于后臺程序的關鍵字/敏感詞過濾方法,其特征在于,在匹配集合中將所有相同首字組成若干不同的小組,然后將小組放到一個散列表,在掃描原文本時現(xiàn)在散列表中掃描,如果掃描到了首字再掃描同組的關鍵字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市微訊移通信息技術有限公司,未經(jīng)深圳市微訊移通信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210369309.9/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種集中電磁脈沖防護監(jiān)測儀
- 下一篇:灌裝機用跟蹤灌裝部件





