[發明專利]異常文本識別方法、裝置、計算機設備及存儲介質有效
| 申請號: | 202110076225.5 | 申請日: | 2021-01-20 |
| 公開(公告)號: | CN112860849B | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 朱運;喬建秀 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 楊毅玲;劉麗華 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 異常 文本 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本發明涉及人工智能技術領域,提供一種異常文本識別方法、裝置、計算機設備及存儲介質,包括:對多個待測文本進行聚類,并根據聚類后的多個質心識別出所述多個待測文本中的多個第一問題文本;調用異常文本識別模型識別出所述多個第一問題文本中的多個第二問題文本;提取每個所述第二問題文本的詞袋向量,并基于多個所述詞袋向量生成問題文本圖像;使用目標檢測算法對所述問題文本圖像進行目標檢測,得到多個目標檢測框;根據所述多個目標檢測框識別所述多個第二問題文本中的異常文本。本發明能夠批量的識別出異常文本,異常文本的識別效果佳且識別效率高。
技術領域
本發明涉及人工智能技術領域,具體涉及一種異常文本識別方法、裝置、計算機設備及存儲介質。
背景技術
隨著大數據時代的不斷發展,內容平臺上的文本越來越多,從數以萬計的文本中快速的檢測出異常文本,對于內容平臺是非常重要的,如果將不合規的文本暴露給用戶,會給內容平臺的聲譽帶來巨大影響。
發明人在實現本發明的過程中發現,現有的內容平臺多通過建立異常詞表,基于異常詞表來對文本進行匹配,從而確定文本是否為異常文本,該方法需要不斷人工添加異常詞,導致識別文本異常的效果較差;且需要將文本與異常詞表中的異常詞進行逐個匹配,導致識別異常文本的效率較差。
發明內容
鑒于以上內容,有必要提出一種異常文本識別方法、裝置、計算機設備及存儲介質,能夠批量的識別出異常文本,異常文本的識別效果佳且識別效率高。
本發明的第一方面提供一種異常文本識別方法,所述方法包括:
對多個待測文本進行聚類,并根據聚類后的多個質心識別出所述多個待測文本中的多個第一問題文本;
調用異常文本識別模型識別出所述多個第一問題文本中的多個第二問題文本;
提取每個所述第二問題文本的詞袋向量,并基于多個所述詞袋向量生成問題文本圖像;
使用目標檢測算法對所述問題文本圖像進行目標檢測,得到多個目標檢測框;
根據所述多個目標檢測框識別所述多個第二問題文本中的異常文本。
在一個可選的實施例中,所述根據所述多個目標檢測框識別所述多個第二問題文本中的異常文本包括:
確定每個所述目標檢測框中的詞袋子向量;
判斷每個詞袋向量中是否存在與任意一個所述詞袋子向量相同的目標詞袋子向量;
當目標詞袋向量中存在至少一個所述目標詞袋子向量時,確定所述目標詞袋向量對應的第二問題文本為異常文本。
在一個可選的實施例中,所述調用異常文本識別模型識別出所述多個第一問題文本中的多個第二問題文本包括:
采用異常文本識別模型對所述多個第一問題文本中的每個第一問題文本進行異常概率預測;
獲取第一目標異常概率的多個第一候選問題文本、獲取第二目標異常概率的多個第二候選問題文本及獲取第三目標異常概率的多個第三候選問題文本,其中,所述第一目標異常概率所述第二目標異常概率所述第三目標異常概率;
計算每個所述第一候選問題文本與每個所述第二候選問題文本之間的第一文本相似度,及計算每個所述第三候選問題文本與每個所述第二候選問題文本之間的第二文本相似度;
根據每個所述第二候選問題文本對應的多個所述第一文本相似度及多個所述第二文本相似度識別出所述多個第二候選問題文本中的多個第二問題文本。
在一個可選的實施例中,所述根據每個所述第二候選問題文本對應的多個所述第一文本相似度及多個所述第二文本相似度識別出所述多個第二候選問題文本中的多個第二問題文本包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110076225.5/2.html,轉載請聲明來源鉆瓜專利網。





