[發明專利]異常文本識別方法、裝置、計算機設備及存儲介質有效

申請號：	202110076225.5	申請日：	2021-01-20
公開（公告）號：	CN112860849B	公開（公告）日：	2021-11-30
發明（設計）人：	朱運;喬建秀	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G06F16/33	分類號：	G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62
代理公司：	深圳市賽恩倍吉知識產權代理有限公司 44334	代理人：	楊毅玲;劉麗華
地址：	518000 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	異常文本識別方法裝置計算機設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及人工智能技術領域，提供一種異常文本識別方法、裝置、計算機設備及存儲介質，包括：對多個待測文本進行聚類，并根據聚類后的多個質心識別出所述多個待測文本中的多個第一問題文本；調用異常文本識別模型識別出所述多個第一問題文本中的多個第二問題文本；提取每個所述第二問題文本的詞袋向量，并基于多個所述詞袋向量生成問題文本圖像；使用目標檢測算法對所述問題文本圖像進行目標檢測，得到多個目標檢測框；根據所述多個目標檢測框識別所述多個第二問題文本中的異常文本。本發明能夠批量的識別出異常文本，異常文本的識別效果佳且識別效率高。

技術領域

本發明涉及人工智能技術領域，具體涉及一種異常文本識別方法、裝置、計算機設備及存儲介質。

背景技術

隨著大數據時代的不斷發展，內容平臺上的文本越來越多，從數以萬計的文本中快速的檢測出異常文本，對于內容平臺是非常重要的，如果將不合規的文本暴露給用戶，會給內容平臺的聲譽帶來巨大影響。

發明人在實現本發明的過程中發現，現有的內容平臺多通過建立異常詞表，基于異常詞表來對文本進行匹配，從而確定文本是否為異常文本，該方法需要不斷人工添加異常詞，導致識別文本異常的效果較差；且需要將文本與異常詞表中的異常詞進行逐個匹配，導致識別異常文本的效率較差。

發明內容

鑒于以上內容，有必要提出一種異常文本識別方法、裝置、計算機設備及存儲介質，能夠批量的識別出異常文本，異常文本的識別效果佳且識別效率高。

本發明的第一方面提供一種異常文本識別方法，所述方法包括：

對多個待測文本進行聚類，并根據聚類后的多個質心識別出所述多個待測文本中的多個第一問題文本；

調用異常文本識別模型識別出所述多個第一問題文本中的多個第二問題文本；

提取每個所述第二問題文本的詞袋向量，并基于多個所述詞袋向量生成問題文本圖像；

使用目標檢測算法對所述問題文本圖像進行目標檢測，得到多個目標檢測框；