[發明專利]基于DFA算法的敏感詞過濾方法及系統在審
| 申請號: | 202110338568.4 | 申請日: | 2021-03-30 |
| 公開(公告)號: | CN113157904A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 肖景海;廖先林;徐瀚昌 | 申請(專利權)人: | 北京優醫達智慧健康科技有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/31 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 朱健 |
| 地址: | 100000 北京市豐臺區盧溝橋*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 dfa 算法 敏感 過濾 方法 系統 | ||
1.一種基于DFA算法的敏感詞過濾方法,其特征在于,包括:
將敏感詞進行匯總,構建敏感詞庫;
基于所述敏感詞庫生成敏感詞查找樹;
將待檢索文本內容按照文字順序在所述敏感詞查找樹中檢索,得到所述文字內容中包含的全部敏感詞。
2.根據權利要求1所述的敏感詞過濾方法,其特征在于,所述基于所述敏感詞庫生成敏感詞查找樹,包括:
檢查所述敏感詞庫;判斷所述敏感詞庫中是否存在未處理敏感詞;
當所述敏感詞庫中不存在未處理敏感詞時,敏感詞查找樹構建完成;
當所述敏感詞庫中存在未處理敏感詞時,將未處理敏感詞取出,并針對取出的未處理敏感詞進行二次檢查。
3.根據權利要求2所述的敏感詞過濾方法,其特征在于,所述針對取出的未處理敏感詞進行二次檢查時,當未處理敏感詞存在多個時,將未處理敏感詞逐一進行二次檢查。
4.根據權利要求3所述的敏感詞過濾方法,其特征在于,所述針對取出的未處理敏感詞進行二次檢查時,判斷所述未處理敏感詞中是否存在未處理敏感字符;當所述未處理敏感詞中存在未處理敏感字符時,將所述未處理敏感詞中的下一個字符取出,在敏感詞查找樹的樹根節點中檢查是否存在以所述字符為標識的子樹,如果不存在以所述字符為標識的子樹,則創建一個以所述字符為標識的子樹;如果存在以所述字符為標識的子樹,則將以所述字符為標識的子樹作為新的查找樹。
5.根據權利要求1所述的敏感詞過濾方法,其特征在于,所述將待檢索文本內容按照文字順序在所述敏感詞查找樹中檢索,包括:
檢查待檢索文本內容;判斷所述待檢索文本內容中是否存在未處理字符;
當所述待檢索文本內容中存在未處理字符時,將所述未處理字符的下一個字符取出;
根據取出的未處理字符在所述敏感詞查找樹中查找以所述字符為標識的子樹;
當所述敏感詞查找樹中存在以所述字符為標識的子樹時,將所述敏感詞查找樹中以所述字符為標識的子樹更新敏感詞查找樹;
當所述敏感詞查找樹中不存在以所述字符為標識的子樹時,確定所述敏感詞查找樹是否為初始敏感詞查找樹;如果所述敏感詞查找樹是初始敏感詞查找樹,則在所述未處理字符后面繼續進行檢查待檢索文本內容;如果所述敏感詞查找樹不是初始敏感詞查找樹,則在在初始敏感詞查找樹到當前敏感詞查找樹的更新過程中依次進行匹配。
6.根據權利要求5所述的敏感詞過濾方法,其特征在于,當所述待檢索文本內容中存在未處理字符時,將所述未處理字符的下一個字符取出的過程中,如果所述未處理字符是所述待檢索文本內容中的第一個字符,則將所述未處理字符取出。
7.根據權利要求6所述的敏感詞過濾方法,其特征在于,所述更新敏感詞查找樹時,將所述敏感詞查找樹中以所述字符為標識的子樹替換當前的敏感詞查找樹,進而再在所述待檢索文本內容中從所述未處理字符后面繼續進行檢查,重復在敏感詞查找樹中進行檢索,直至所述待檢索文本內容全部完成。
8.一種基于DFA算法的敏感詞過濾系統,其特征在于,包括:服務模塊、通信模塊和過濾模塊;所述服務模塊包括敏感詞數據庫以及敏感詞查找樹,用于提供過濾服務;所述通信模塊,用于連接所述服務模塊與所述過濾模塊之間的通信服務;所述過濾模塊,用于根據所述敏感詞查找樹對待檢索文本進行敏感詞過濾。
9.根據權利要求8所述的敏感詞過濾系統,其特征在于,所述服務模塊采用集群部署的方式,所述服務器模塊中包含多個敏感詞查找樹,每個所述敏感詞查找樹作為一個應用程序,每個應用程序維護一個守護線程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京優醫達智慧健康科技有限公司,未經北京優醫達智慧健康科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110338568.4/1.html,轉載請聲明來源鉆瓜專利網。





