[發明專利]適于多個中文敏感詞句的識別處理方法及裝置有效

申請號：	201710072161.5	申請日：	2017-02-08
公開（公告）號：	CN106951437B	公開（公告）日：	2019-11-01
發明（設計）人：	喻民;劉超;盧越;李敏;姜建國	申請（專利權）人：	中國科學院信息工程研究所
主分類號：	G06F16/332	分類號：	G06F16/332
代理公司：	北京路浩知識產權代理有限公司 11002	代理人：	李相雨
地址：	100093 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	適于中文敏感詞句識別處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種適于多個中文敏感詞句的識別處理方法及裝置，該方法包括：獲取多個預設的敏感詞句；根據所述敏感詞句建立后綴樹；獲取待識別中文文本；根據所述后綴樹對所述待識別中文文本進行匹配；若匹配成功后，獲取所述待識別中文本中的敏感詞句并輸出顯示，該方法針對中文的特點，把模式串在后綴樹上的匹配時間由提高到達到節省時間和提高模式串在后綴樹上的匹配速度，適用于多個敏感詞句的中文模式串匹配。

技術領域

本發明涉及計算機處理技術領域，尤其涉及一種適于多個中文敏感詞句的識別處理方法及裝置。

背景技術

識別敏感詞句是指利用程序對信息文本進行嗅探指定的關鍵字詞，檢查是否有違反指定策略的行為，是敏感詞過濾的基礎。為了快速準確的查找敏感詞匯需要應用一些模式匹配算法。

模式串的模式匹配算法有Aho-Corasick(AC)算法，BM算法，ACBM算法。其中，AC算法通過預處理，將多個模式串轉換為樹型有限自動狀態機(DFSA)，對文本串掃描一次就可以完成所有模式串匹配，匹配的時間復雜度是O(n+m)。BM算法的時間復雜度是但是無法處理多模式串匹配問題。ACBM算法融合了AC算法和BM算法思想，平均情況下效率優于AC算法，時間復雜度是雖然ACBM算法在實際應用中表現優異，但針對中文效果較差并且未能充分利用的模式串和中文信息的特點，導致匹配速度較慢。

造成低效的原因是英文的基本結構單位是“詞”，中文的基本結構單位是“字”。在敏感詞句檢測時有很大差異。對英語來說，敏感詞檢測是對26個英文字母進行依次匹配，而對于中文來說是對上萬的漢字進行依次匹配。因此字符串匹配算法，由26個英文字母變成上萬的漢字后，在時間和空間上都無法達到算法預期效果。另外漢字是多字節符號，同時還具備拼音等英文字母不具有的屬性也沒有在算法中被充分利用。

發明內容

本發明提供一種適于多個中文敏感詞句的識別處理方法及裝置，用于解決現有技術中對中文敏感詞句匹配速度較慢的問題。

第一方面，本發明提供一種適于多個中文敏感詞句的識別處理方法，包括：

獲取多個預設的敏感詞句；

根據所述敏感詞句建立后綴樹；

獲取待識別中文文本；

根據所述后綴樹對所述待識別中文文本進行匹配；

若匹配成功后，獲取所述待識別中文本中的敏感詞句并輸出顯示。

可選地，所述根據所述敏感詞句建立后綴樹，包括：

S21、根據多個預設的敏感詞句，建立模式串集合P(P₁,P₂,P₃,P₄,P₅...P_n)；

S22、設置一根節點，所述根節點的屬性值為第一預設值，所述第一預設值為任一拼音字母的排列值；

S23、選取所述模式串集合中的任一敏感詞句P_i，所述敏感詞句P_i的字符串長度為m；