[發明專利]敏感信息識別方法、系統、設備及存儲介質在審
| 申請號: | 201811544301.5 | 申請日: | 2018-12-17 |
| 公開(公告)號: | CN109657243A | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 王東;沙韜偉;羅競佳;鄧金秋 | 申請(專利權)人: | 江蘇滿運軟件科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/332;G06F16/35 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 臧云霄;夏彬 |
| 地址: | 210012 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感信息 文本句子 詞向量 存儲介質 文本識別 向量化 概率 準確率 評論 刪除 應用 文本 查找 場景 分類 敏感 論壇 | ||
本發明提供了一種敏感信息識別方法、系統、設備及存儲介質,該方法包括:將待識別的文本句子進行切詞,得到各個組成詞;在訓練好的詞向量庫中查找各個組成詞的詞向量;將各個組成詞的詞向量計算平均值,得到平均向量值;將平均向量值輸入訓練好的敏感信息識別模型,得到敏感信息概率值;根據敏感信息概率值判斷文本句子是否包括敏感信息。通過采用本發明的方案,基于向量化文本進行敏感程度分類,可以快速高效地識別文本句子是否包括敏感信息,提高文本識別的準確率;本發明可以應用于各種類型的論壇中評論的識別,在文本句子中包含敏感信息時可以將對應的評論刪除,本發明也可以應用于其他場景的敏感信息的識別。
技術領域
本發明涉及文本識別技術領域,尤其涉及一種敏感信息識別方法、系統、設備及存儲介質。
背景技術
在網絡論壇的管理中,需要對一些敏感信息進行識別和刪除,保證論壇氛圍積極。敏感信息例如可能是負面、反動、黃色、暴力等不合法不合規的信息。發帖數據的主要屬性有文本、表情、數字、字符等等,數據格式非常雜亂,語義豐富,如果直接將發帖數據輸入到現有的敏感信息識別模型中會比較難以使用,且效果較差。
現有的敏感信息識別方案主要有兩種,第一種為暴力的敏感詞匹配,這種方法造成誤傷比較大,很可能將不是敏感信息的文本也識別為敏感信息。另一種是常規分詞分類,將一句話分為多個詞,然后通過詞頻進行貝葉斯分類。這種方案對短句識別效果較為落后,對于一些只有三四個字詞的短句,由于分詞前后長度較短,貝葉斯分類器不能有很好的分類結果,而且沒有很好地利用詞的相關性,無法獲得準確的敏感信息識別結果。
發明內容
針對現有技術中的問題,本發明的目的在于提供一種敏感信息識別方法、系統、設備及存儲介質,基于向量化文本進行敏感程度分類,可以快速高效地識別文本句子是否包括敏感信息。
本發明實施例提供一種敏感信息識別方法,所述方法包括如下步驟:
將待識別的文本句子進行切詞,得到各個組成詞;
在訓練好的詞向量庫中查找各個所述組成詞的詞向量;
將各個所述組成詞的詞向量計算平均值,得到平均向量值;
將所述平均向量值輸入訓練好的敏感信息識別模型,得到敏感信息概率值,并根據所述敏感信息概率值判斷所述文本句子是否包括敏感信息。
可選地,所述將待識別的文本句子進行切詞,包括如下步驟:
采用Jieba分詞方法對所述待識別的文本句子進行切詞。
可選地,所述訓練好的詞向量庫包括多個基于GloVe訓練的詞向量。
可選地,所述訓練好的詞向量庫包括多個預設敏感詞的詞向量,所述在訓練好的詞向量庫中查找各個所述組成詞的詞向量時,對于在所述訓練好的詞向量庫中未查找到的組成詞,采用默認詞向量。
可選地,所述將各個所述組成詞的詞向量計算平均值,包括將各個所述組成詞的詞向量進行列平均。
可選地,還包括采集多個已知是否包括敏感信息的文本句子作為訓練集,采用訓練集訓練敏感信息識別模型的步驟。
可選地,所述采用訓練集訓練敏感信息識別模型,包括如下步驟:
分別對各個已知是否包括敏感信息的文本句子進行切詞,得到各個文本句子對應的各個組成詞;
在訓練好的詞向量庫中查找各個所述組成詞的詞向量;
將各個文本句子的組成詞的詞向量計算平均值,得到各個文本句子的平均向量值;
根據各個文本句子是否包括敏感信息,為各個文本句子的平均向量值添加標簽;
采用各個文本句子的平均向量值和標簽訓練所述敏感信息識別模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇滿運軟件科技有限公司,未經江蘇滿運軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811544301.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種漢語冗余義項自動消除系統
- 下一篇:一種英文長句自動切分方法及系統





