[發明專利]一種惡意文本的檢測方法、裝置、電子設備及存儲介質在審
| 申請號: | 201911340066.4 | 申請日: | 2019-12-23 |
| 公開(公告)號: | CN111159338A | 公開(公告)日: | 2020-05-15 |
| 發明(設計)人: | 揭文君;吳迪;李澤 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/30;G06K9/62 |
| 代理公司: | 北京先進知識產權代理有限公司 11648 | 代理人: | 邵勁草 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 惡意 文本 檢測 方法 裝置 電子設備 存儲 介質 | ||
本公開提供一種惡意文本的檢測方法、裝置、電子設備及存儲介質,該方法包括:將待檢測文本進行歸一化處理,得到歸一化后的待檢測文本;至少根據歸一化后的待檢測文本,確定惡意文本庫中惡意文本與待檢測文本的最高相似度,其中,最高相似度,至少為歸一化后的待檢測文本和惡意文本庫中各惡意文本的相似度中最高的相似度;若最高相似度大于預設相似度閾值,則確定待檢測文本為惡意文本。相對于現有技術僅僅基于待檢測文本進行關鍵詞庫匹配的方式而言,提高了惡意文本檢測的準確率。
技術領域
本公開涉及計算機技術領域,尤其涉及一種惡意文本的檢測方法、裝置、電子設備及存儲介質。
背景技術
相關技術中,為了盡可能地阻止不良信息在互聯網中的傳播,可以通過關鍵詞匹配的方法對惡意文本進行檢測。具體來說,會通過用戶舉報和人工發現的方式,將惡意文本中的某些詞選為關鍵詞,然后添加到關鍵詞庫,之后通過將待檢測文本直接作為待搜索關鍵詞,在關鍵詞庫中搜索該待搜關鍵詞,若在關鍵詞庫中命中該待搜索關鍵詞,即可確定待檢測文本為惡意文本。
然而,惡意文本發布方只需對惡意文本中的詞語進行微調,即可避免與關鍵詞庫中的關鍵詞相同或相似,導致無法檢測出惡意文本,即相關技術中的惡意文本檢測方法的準確率較低。
發明內容
本公開提供一種惡意文本的檢測方法、裝置、電子設備及存儲介質,以至少解決相關技術中惡意文本的檢測方法的準確率較低的問題。本公開的技術方案如下:
根據本公開實施例的第一方面,提供一種惡意文本的檢測方法,包括:
將待檢測文本進行歸一化處理,得到歸一化后的待檢測文本;
至少根據所述歸一化后的待檢測文本,確定所述惡意文本庫中惡意文本與所述待檢測文本的最高相似度,其中,所述最高相似度,至少為所述歸一化后的待檢測文本和所述惡意文本庫中各惡意文本的相似度中最高的相似度;
若所述最高相似度大于預設相似度閾值,則確定所述待檢測文本為惡意文本。
在一種可選的實施方式中,所述至少根據所述歸一化后的待檢測文本,確定所述惡意文本庫中惡意文本與所述待檢測文本的最高相似度,包括:
對所述歸一化后的待檢測文本進行類型轉換,得到語義與所述待檢測文本相同、且表現形式與所述待檢測文本不同的轉換后的文本;
分別計算所述歸一化后的待檢測文本與各惡意文本的第一相似度、以及計算所述轉換后的文本與各惡意文本的第二相似度;
從所述第一相似度集合和所述第二相似度集合中確定出最高相似度,作為所述惡意文本庫中惡意文本與所述待檢測文本的最高相似度。
在一種可選的實施方式中,所述若所述最高相似度大于預設相似度閾值,則確定所述待檢測文本為惡意文本,包括:
若所述最高相似度中的至少一個大于預設相似度閾值,則確定所述待檢測文本為惡意文本。
在一種可選的實施方式中,所述至少根據所述歸一化后的待檢測文本,確定所述惡意文本庫中惡意文本與所述待檢測文本的最高相似度,包括:
至少根據所述歸一化后的待檢測文本的文本向量與所述惡意文本庫中的各惡意文本的文本向量,確定各惡意文本與所述待檢測文本的相似度,其中,文本的文本向量通過預先訓練得到的模型而生成;
從各惡意文本與所述待檢測文本的文本向量的相似度中,確定出最高的相似度。
在一種可選的實施方式中,所述文本的文本向量通過預先訓練得到的模型通過如下方式而生成:
通過預先訓練得到的模型,獲取所述文本包含的多個詞語的詞向量;
計算所述多個詞語的詞向量的平均值,得到所述文本的文本向量;或者,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911340066.4/2.html,轉載請聲明來源鉆瓜專利網。





