[發明專利]一種惡意文本的檢測方法、裝置、電子設備及存儲介質在審

申請號：	201911340066.4	申請日：	2019-12-23
公開（公告）號：	CN111159338A	公開（公告）日：	2020-05-15
發明（設計）人：	揭文君;吳迪;李澤	申請（專利權）人：	北京達佳互聯信息技術有限公司
主分類號：	G06F16/33	分類號：	G06F16/33;G06F16/35;G06F40/30;G06K9/62
代理公司：	北京先進知識產權代理有限公司 11648	代理人：	邵勁草
地址：	100085 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種惡意文本檢測方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供一種惡意文本的檢測方法、裝置、電子設備及存儲介質，該方法包括：將待檢測文本進行歸一化處理，得到歸一化后的待檢測文本；至少根據歸一化后的待檢測文本，確定惡意文本庫中惡意文本與待檢測文本的最高相似度，其中，最高相似度，至少為歸一化后的待檢測文本和惡意文本庫中各惡意文本的相似度中最高的相似度；若最高相似度大于預設相似度閾值，則確定待檢測文本為惡意文本。相對于現有技術僅僅基于待檢測文本進行關鍵詞庫匹配的方式而言，提高了惡意文本檢測的準確率。

技術領域

本公開涉及計算機技術領域，尤其涉及一種惡意文本的檢測方法、裝置、電子設備及存儲介質。

背景技術

相關技術中，為了盡可能地阻止不良信息在互聯網中的傳播，可以通過關鍵詞匹配的方法對惡意文本進行檢測。具體來說，會通過用戶舉報和人工發現的方式，將惡意文本中的某些詞選為關鍵詞，然后添加到關鍵詞庫，之后通過將待檢測文本直接作為待搜索關鍵詞，在關鍵詞庫中搜索該待搜關鍵詞，若在關鍵詞庫中命中該待搜索關鍵詞，即可確定待檢測文本為惡意文本。

然而，惡意文本發布方只需對惡意文本中的詞語進行微調，即可避免與關鍵詞庫中的關鍵詞相同或相似，導致無法檢測出惡意文本，即相關技術中的惡意文本檢測方法的準確率較低。

發明內容

本公開提供一種惡意文本的檢測方法、裝置、電子設備及存儲介質，以至少解決相關技術中惡意文本的檢測方法的準確率較低的問題。本公開的技術方案如下：

根據本公開實施例的第一方面，提供一種惡意文本的檢測方法，包括：

將待檢測文本進行歸一化處理，得到歸一化后的待檢測文本；

至少根據所述歸一化后的待檢測文本，確定所述惡意文本庫中惡意文本與所述待檢測文本的最高相似度，其中，所述最高相似度，至少為所述歸一化后的待檢測文本和所述惡意文本庫中各惡意文本的相似度中最高的相似度；

若所述最高相似度大于預設相似度閾值，則確定所述待檢測文本為惡意文本。

在一種可選的實施方式中，所述至少根據所述歸一化后的待檢測文本，確定所述惡意文本庫中惡意文本與所述待檢測文本的最高相似度，包括：

對所述歸一化后的待檢測文本進行類型轉換，得到語義與所述待檢測文本相同、且表現形式與所述待檢測文本不同的轉換后的文本；

分別計算所述歸一化后的待檢測文本與各惡意文本的第一相似度、以及計算所述轉換后的文本與各惡意文本的第二相似度；

從所述第一相似度集合和所述第二相似度集合中確定出最高相似度，作為所述惡意文本庫中惡意文本與所述待檢測文本的最高相似度。

在一種可選的實施方式中，所述若所述最高相似度大于預設相似度閾值，則確定所述待檢測文本為惡意文本，包括：