[發(fā)明專利]異常文本識別方法、裝置、計算機設備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202110076225.5 | 申請日: | 2021-01-20 |
| 公開(公告)號: | CN112860849B | 公開(公告)日: | 2021-11-30 |
| 發(fā)明(設計)人: | 朱運;喬建秀 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 44334 | 代理人: | 楊毅玲;劉麗華 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 異常 文本 識別 方法 裝置 計算機 設備 存儲 介質(zhì) | ||
1.一種異常文本識別方法,其特征在于,所述方法包括:
對多個待測文本進行聚類,并根據(jù)聚類后的多個質(zhì)心識別出所述多個待測文本中的多個第一問題文本;
調(diào)用異常文本識別模型識別出所述多個第一問題文本中的多個第二問題文本,包括:采用異常文本識別模型對所述多個第一問題文本中的每個第一問題文本進行異常概率預測;獲取第一目標異常概率的多個第一候選問題文本、獲取第二目標異常概率的多個第二候選問題文本及獲取第三目標異常概率的多個第三候選問題文本,其中,所述第一目標異常概率所述第二目標異常概率所述第三目標異常概率;計算每個所述第一候選問題文本與每個所述第二候選問題文本之間的第一文本相似度,及計算每個所述第三候選問題文本與每個所述第二候選問題文本之間的第二文本相似度;根據(jù)每個所述第二候選問題文本對應的多個所述第一文本相似度及多個所述第二文本相似度識別出所述多個第二候選問題文本中的多個第二問題文本;
提取每個所述第二問題文本的詞袋向量,并基于多個所述詞袋向量生成問題文本圖像;
使用目標檢測算法對所述問題文本圖像進行目標檢測,得到多個目標檢測框;
根據(jù)所述多個目標檢測框識別所述多個第二問題文本中的異常文本。
2.如權(quán)利要求1所述的異常文本識別方法,其特征在于,所述根據(jù)所述多個目標檢測框識別所述多個第二問題文本中的異常文本包括:
確定每個所述目標檢測框中的詞袋子向量;
判斷每個詞袋向量中是否存在與任意一個所述詞袋子向量相同的目標詞袋子向量;
當目標詞袋向量中存在至少一個所述目標詞袋子向量時,確定所述目標詞袋向量對應的第二問題文本為異常文本。
3.如權(quán)利要求1所述的異常文本識別方法,其特征在于,所述根據(jù)每個所述第二候選問題文本對應的多個所述第一文本相似度及多個所述第二文本相似度識別出所述多個第二候選問題文本中的多個第二問題文本包括:
對于任意一個第二候選問題文本,獲取多個所述第一文本相似度中大于預設相似度閾值的多個第一目標文本相似度,計算所述多個第一目標文本相似度的第一數(shù)量;
獲取多個所述第二文本相似度中大于所述預設相似度閾值的多個第二目標文本相似度,計算所述多個第二目標文本相似度的第二數(shù)量;
計算多個所述第一文本相似度的第三數(shù)量,及計算多個所述第二文本相似度的第四數(shù)量;
當所述第一數(shù)量與所述第三數(shù)量的占比小于預設占比閾值,且所述第二數(shù)量與所述第四數(shù)量的占比小于所述預設占比閾值時,確定所述任意一個第二候選問題文本為所述第二問題文本。
4.如權(quán)利要求1至3中任意一項所述的異常文本識別方法,其特征在于,所述對多個待測文本進行聚類,并根據(jù)聚類后的多個質(zhì)心識別出所述多個待測文本中的多個第一問題文本包括:
提取每個待測文本的文本向量,根據(jù)所述文本向量對所述多個待測文本進行聚類,得到多個待測文本簇;
根據(jù)所述多個待測文本簇的質(zhì)心計算平均質(zhì)心;
計算每個待測文本簇的質(zhì)心與所述平均質(zhì)心之間的距離;
確定距離大于預設距離閾值的待測文本簇為問題文本簇;
確定所述問題文本簇中的多個待測文本為多個第一問題文本。
5.如權(quán)利要求4所述的異常文本識別方法,其特征在于,所述提取每個所述第二問題文本的詞袋向量,并基于多個所述詞袋向量生成問題文本圖像包括:
對每個所述第二問題文本進行分詞處理,得到多個分詞;
計算每個分詞的TF-IDF值;
根據(jù)每個所述第二問題文本中每個分詞的IF-IDF值計算所述第二問題文本的詞袋向量;
對每個所述詞袋向量進行降維處理得到標準詞袋向量;
根據(jù)多個所述標準詞袋向量生成問題文本圖像。
6.如權(quán)利要求4所述的異常文本識別方法,其特征在于,所述方法還包括:
提取所述異常文本中的多個異常詞;
根據(jù)所述多個異常詞計算所述異常文本的異常度;
當所述異常度大于預設異常度閾值時,獲取發(fā)布所述異常文本的用戶賬號;
對所述用戶賬號進行封號處理。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110076225.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





