[發明專利]敏感信息識別方法、系統、設備及存儲介質在審
| 申請號: | 201811544301.5 | 申請日: | 2018-12-17 |
| 公開(公告)號: | CN109657243A | 公開(公告)日: | 2019-04-19 |
| 發明(設計)人: | 王東;沙韜偉;羅競佳;鄧金秋 | 申請(專利權)人: | 江蘇滿運軟件科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/332;G06F16/35 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 臧云霄;夏彬 |
| 地址: | 210012 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 敏感信息 文本句子 詞向量 存儲介質 文本識別 向量化 概率 準確率 評論 刪除 應用 文本 查找 場景 分類 敏感 論壇 | ||
1.一種敏感信息識別方法,其特征在于,包括如下步驟:
將待識別的文本句子進行切詞,得到各個組成詞;
在訓練好的詞向量庫中查找各個所述組成詞的詞向量;
將各個所述組成詞的詞向量計算平均值,得到平均向量值;
將所述平均向量值輸入訓練好的敏感信息識別模型,得到敏感信息概率值,并根據所述敏感信息概率值判斷所述文本句子是否包括敏感信息。
2.根據權利要求1所述的敏感信息識別方法,其特征在于,所述將待識別的文本句子進行切詞,包括如下步驟:
采用Jieba分詞方法對所述待識別的文本句子進行切詞。
3.根據權利要求1所述的敏感信息識別方法,其特征在于,所述訓練好的詞向量庫包括多個基于GloVe訓練的詞向量。
4.根據權利要求1所述的敏感信息識別方法,其特征在于,所述訓練好的詞向量庫包括多個預設敏感詞的詞向量,所述在訓練好的詞向量庫中查找各個所述組成詞的詞向量時,對于在所述訓練好的詞向量庫中未查找到的組成詞,采用默認詞向量。
5.根據權利要求1所述的敏感信息識別方法,其特征在于,所述將各個所述組成詞的詞向量計算平均值,包括將各個所述組成詞的詞向量進行列平均。
6.根據權利要求1所述的敏感信息識別方法,其特征在于,還包括采集多個已知是否包括敏感信息的文本句子作為訓練集,采用所述訓練集訓練敏感信息識別模型的步驟。
7.根據權利要求6所述的敏感信息識別方法,其特征在于,所述采用所述訓練集訓練敏感信息識別模型,包括如下步驟:
分別對各個已知是否包括敏感信息的文本句子進行切詞,得到各個文本句子對應的各個組成詞;
在訓練好的詞向量庫中查找各個所述組成詞的詞向量;
將各個文本句子的組成詞的詞向量計算平均值,得到各個文本句子的平均向量值;
根據各個文本句子是否包括敏感信息,為所述各個文本句子的平均向量值添加標簽;
采用所述各個文本句子的平均向量值和標簽訓練所述敏感信息識別模型。
8.根據權利要求1所述的敏感信息識別方法,其特征在于,所述根據所述敏感信息概率值判斷所述文本句子是否包括敏感信息,包括如下步驟:
判斷所述敏感信息概率值是否大于預設閾值,如果是,則該文本句子包括敏感信息。
9.一種敏感信息識別系統,其特征在于,應用于權利要求1至8中任一項所述的敏感信息識別方法,所述系統包括:
文本分詞模塊,用于將待識別的文本句子進行切詞,得到各個組成詞;
詞向量查詢模塊,用于在訓練好的詞向量庫中查找各個所述組成詞的詞向量;
平均向量值計算模塊,用于將各個所述組成詞的詞向量計算平均值,得到平均向量值;
敏感信息識別模塊,用于將所述平均向量值輸入訓練好的敏感信息識別模型,得到敏感信息概率值,并根據所述敏感信息概率值判斷所述文本句子是否包括敏感信息。
10.一種敏感信息識別設備,其特征在于,包括:
處理器;
存儲器,其中存儲有所述處理器的可執行指令;
其中,所述處理器配置為經由執行所述可執行指令來執行權利要求1至8中任一項所述的敏感信息識別方法的步驟。
11.一種計算機可讀存儲介質,用于存儲程序,其特征在于,所述程序被執行時實現權利要求1至8中任一項所述的敏感信息識別方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇滿運軟件科技有限公司,未經江蘇滿運軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811544301.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種漢語冗余義項自動消除系統
- 下一篇:一種英文長句自動切分方法及系統





