[發明專利]不良用語識別方法、裝置、電子裝置及存儲介質在審
| 申請號: | 202010038769.8 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111241820A | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 曾昱為;瞿曉陽;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 劉麗華;孫芬 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 不良 用語 識別 方法 裝置 電子 存儲 介質 | ||
1.一種不良用語識別方法,其特征在于,所述方法包括:
獲取文本信息;
獨熱編碼所述文本信息中的每個詞,得到所述每個詞的特征向量;
通過預先訓練的詞向量模型處理所述特征向量得到詞向量信息;
將所述文本信息中每個詞的詞向量信息依次輸入神經網絡模型中,得到輸出結果;
將所述輸出結果輸入至淺層神經網絡中完成概率計算;及
比對計算的概率與概率閾值確定所述文本信息是否為不良用語。
2.如權利要求1所述的不良用語識別方法,其特征在于,所述方法還包括:
對所述文本信息進行預處理,其中,所述預處理包括去停用詞和去噪聲詞中的至少一種。
3.如權利要求1所述的不良用語識別方法,其特征在于,所述神經網絡模型為雙向GRU神經網絡模型,用于獲取所述文本信息的語義信息。
4.如權利要求1所述的不良用語識別方法,其特征在于,所述比對計算的概率與概率閾值確定所述文本信息是否為不良用語包括:
當所述計算的概率大于或等于所述概率閾值時,確認所述文本信息為不良用語;
當所述計算的概率小于所述概率閾值時,確認所述文本信息不是不良用語。
5.如權利要求4所述的不良用語識別方法,其特征在于,所述淺層神經網絡為DNN神經網絡,通過交叉熵損失值優化所述概率閾值。
6.如權利要求1所述的不良用語識別方法,其特征在于,所述方法還包括:
提取所述不良用語;
根據所述不良用語識別所述文本信息中與所述不良用語相關的變形詞匯。
7.如權利要求6所述的不良用語識別方法,其特征在于,所述根據所述不良用語識別所述文本信息中與所述不良用語相關的變形詞匯包括:
提取所述文本信息中與所述不良用語相關的疑似變形詞匯;
將所述不良用語和所述疑似變形詞匯轉換成音碼;
通過編輯距離計算所述不良用語的音碼與所述疑似變形詞匯的音碼之間的相似度;
當所述相似度大于或等于預設值時,確認所述疑似變形詞匯為所述不良用語的變形體;
當所述相似度小于所述預設值時,確認所述疑似變形詞匯不是所述不良用語的變形體。
8.一種不良用語識別的裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取文本信息;
編碼模塊,用于獨熱編碼所述文本信息中的每個詞,得到所述每個詞的特征向量;
處理模塊,用于通過預先訓練的詞向量模型處理所述特征向量得到詞向量信息;
輸入模塊,用于將所述文本信息中每個詞的詞向量信息依次輸入神經網絡模型中,得到輸出結果;
計算模塊,用于將所述輸出結果輸入至淺層神經網絡中完成概率計算;及
比對模塊,用于比對計算的概率與概率閾值確定所述文本信息是否為不良用語。
9.一種電子裝置,其特征在于,所述電子裝置包括處理器和存儲器,所述處理器用于執行所述存儲器中存儲的計算機程序時實現如權利要求1至7中任意一項所述的不良用語識別方法。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7中任意一項所述的不良用語識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010038769.8/1.html,轉載請聲明來源鉆瓜專利網。





