[發明專利]一種敏感信息檢測方法、裝置及存儲介質在審
| 申請號: | 202010563895.5 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111831803A | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 王振杰 | 申請(專利權)人: | 新華三大數據技術有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/9532;G06F40/242;G06F40/284 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450000 河南省鄭州市鄭州高*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 敏感 信息 檢測 方法 裝置 存儲 介質 | ||
本公開提供了一種敏感信息檢測方法、裝置及存儲介質。用于提高對網絡敏感信息的檢測準確度。本公開首先對于用戶的網絡行為文本進行預處理,去除干擾字符生成待檢測文本,然后使用文本情感極性判斷工具對所述待檢測文本進行情感極性判斷,對判定為消極負面的待檢測文本進行分詞處理,最后再使用詞典樹對經分詞處理后的待檢測文本進行敏感詞檢測。本公開提供的方案能夠更準確的理解待檢測文本的語義信息,能夠提高敏感詞的檢測效率、降低誤檢率。
技術領域
本公開涉及網絡安全技術領域,尤其涉及一種敏感信息檢測方法、裝置及存儲介質。
背景技術
隨著計算機網絡的不斷發展和完善,網絡用戶可以在越來越多的地方隨意發表不負責任的言論以及在網上檢索各種垃圾信息,比如博客、論壇和評論等。尤其是在企業內網環境中,為了防止一些惡意、色情、反動以及暴恐等信息,信息管理部門往往會設置一個數量龐大的敏感詞庫,當檢測到文本信息包含敏感詞庫中的關鍵字時,都會給出提示或者告警。
對于一個待檢測的文本,傳統的方法通常是逐字的遍歷每個字符,判斷該字符是否在敏感詞庫中,雖然該方法有一定的可用性,由于敏感詞庫里的詞匯比較多,在訪問量巨大的網絡應用中存在性能低下的問題,同時,因為該方法采用的是逐字遍歷的方式,往往存在誤檢率比較高的問題。另外一種誤檢的情況是能正確檢測敏感詞,但是這句話是積極向上的,這是因為統計規則不能理解句子的含義,解決辦法可以通過基于自然語言處理的算法模型,根據句子語義信息進行情感極性判別,比如:“堅決抵制顛覆國家的行為”,檢測到敏感詞是“顛覆國家”,但是本身這句話是積極正向的,傳統的業界做法無法解決此類問題。
發明內容
有鑒于此,本公開提供了一種敏感信息檢測方法、設備及存儲介質,以提高敏感信息檢測準確度。
基于本公開一實施例,本公開提供了一種敏感信息檢測方法,該方法包括:
對于用戶的網絡行為文本進行預處理,去除干擾字符生成待檢測文本;
使用文本情感極性判斷工具對所述待檢測文本進行情感極性判斷;
使用分詞工具對判定為消極負面的待檢測文本進行分詞處理;
使用詞典樹對經分詞處理后的待檢測文本進行敏感詞檢測,如果檢測到匹配的敏感詞,則標識所述網絡行為日志文本為敏感文本,否則標識為非敏感文本。
進一步地,所述使用文本情感極性判斷工具對所述待檢測文本進行情感極性判斷方法為:
所述文本情感極性判斷工具以所述待檢測文本作為輸入,輸出所述待檢測文本的極性概率值,當極性概率值大于預設的臨界閾值時,判定為積極正向,否則判定為消極負面。
進一步地,所述使用詞典樹對經分詞處理后的待檢測文本進行敏感詞檢測的步驟中,所述詞典樹的構建方法為:
從敏感詞庫中讀取敏感詞,對敏感詞進行分詞處理后,在內存中構建所述敏感詞的詞典樹;或從敏感詞庫中讀取敏感詞及其對應的編碼,基于編碼在內存中構建所述詞典樹。
進一步地,所述使用詞典樹對經分詞處理后的待檢測文本進行敏感詞檢測的步驟具體為:
使用詞典樹對經分詞處理后的待檢測文本中的每一個詞依次進行敏感詞檢測,檢測到敏感詞后即停止檢測并輸出檢測結果;或檢測到所有敏感詞后,輸出所有匹配的敏感詞。
進一步地,所述的文本情感極性判斷工具為SnowNLP,所述分詞工具jieba。
基于本公開的另一方面,本公開還提供了一種敏感信息檢測裝置,該裝置包括:
預處理模塊,用于對于用戶的網絡行為文本進行預處理,去除干擾字符生成待檢測文本;
極性判斷模塊,用于使用文本情感極性判斷工具對所述待檢測文本進行情感極性判斷;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華三大數據技術有限公司,未經新華三大數據技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010563895.5/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





