[發明專利]一種網頁敏感詞檢測方法、檢測系統及相關裝置在審
| 申請號: | 202010548352.6 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111680128A | 公開(公告)日: | 2020-09-18 |
| 發明(設計)人: | 徐凱熙;范淵 | 申請(專利權)人: | 杭州安恒信息技術股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/953;G06F40/284 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 高勇 |
| 地址: | 310000 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 敏感 檢測 方法 系統 相關 裝置 | ||
本申請提供一種網頁敏感詞檢測方法,包括:獲取網頁數據和檢測需求;對所述網頁數據進行文本提取,得到文本關鍵詞;利用基于所述檢測需求的AC自動機對所述文本關鍵詞進行敏感詞檢測,得到敏感詞檢測結果。本申請對網頁數據進行有效分詞,將分詞后的詞語分別檢測,表面出現規則匹配時的誤報情況,減少誤報率。本申請還提供一種網頁敏感詞檢測方法、檢測系統、計算機可讀存儲介質和電子設備,具有上述有益效果。
技術領域
本申請涉及網絡安全領域,特別涉及一種網頁敏感詞檢測方法、檢測系 統及相關裝置。
背景技術
網頁敏感詞是指網頁內容中含有的使用不當的詞匯,出現的原因可能是 管理員上傳內容時未仔細審核,或是網站內容被黑客篡改,在原本正常的網 頁上添加了敏感詞匯。
現有技術中存在利用規則匹配進行敏感詞的檢測,根據規則匹配技術, 會將原本正常的網頁內容錯誤的切割出敏感詞,導致檢測結果出現誤報。因 此如何避免敏感詞的誤檢測是本領域技術人員亟需解決的技術問題。
發明內容
本申請的目的是提供一種網頁敏感詞檢測方法、檢測系統、計算機可讀 存儲介質和電子設備,能夠降低敏感詞的誤檢測率。
為解決上述技術問題,本申請提供一種網頁敏感詞檢測方法,具體技術 方案如下:
獲取網頁數據和檢測需求;
對所述網頁數據進行文本提取,得到文本關鍵詞;
利用基于所述檢測需求的AC自動機對所述文本關鍵詞進行敏感詞檢測, 得到敏感詞檢測結果。
可選的,利用基于所述檢測需求的AC自動機對所述文本關鍵詞進行敏感 詞檢測之前,還包括:
基于所述檢測需求生成AC自動機。
可選的,基于所述檢測需求生成AC自動機包括:
根據所述檢測需求確定敏感詞組,并生成所述敏感詞組對應的字典樹;
利用雙數組字典樹生成算法將所述字典樹中的每個狀態映射到雙數組, 生成雙數組字典樹,并記錄所述狀態在雙數組中的下標;
根據所述雙數組字典樹生成AC自動機,所述AC自動機中fail表中存有 所述下標。
可選的,對所述網頁數據進行文本提取,得到文本關鍵詞包括:
對所述網頁數據進行文本分割,得到最短詞語集合;
利用Textrank將所述最短詞語集合作為節點構建網絡,利用PageRank迭 代計算所述網絡中每個節點的rank值,對所述rank值排序得到所述文本關鍵 詞。
可選的,對所述網頁數據進行文本分割,得到最短詞語集合包括:
利用基于HanLP分詞算法的詞法分析器對所述網頁數據進行文本分割, 得到最短詞語集合。
可選的,得到敏感詞檢測結果之后,還包括:
根據所述文本關鍵詞所屬類別過濾所述敏感詞檢測結果中的誤報結果, 得到精確檢測結果。
本申請還提供一種網頁敏感詞檢測系統,包括:
獲取模塊,用于獲取網頁數據和檢測需求;
文本提取模塊,用于對所述網頁數據進行文本提取,得到文本關鍵詞;
檢測模塊,用于利用基于所述檢測需求的AC自動機對所述文本關鍵詞進 行敏感詞檢測,得到敏感詞檢測結果。
可選的,還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州安恒信息技術股份有限公司,未經杭州安恒信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010548352.6/2.html,轉載請聲明來源鉆瓜專利網。





